論文の概要: Towards Consistent Long-Term Pose Generation
- arxiv url: http://arxiv.org/abs/2507.18382v1
- Date: Thu, 24 Jul 2025 12:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.717964
- Title: Towards Consistent Long-Term Pose Generation
- Title(参考訳): 持続的長期ポース生成に向けて
- Authors: Yayuan Li, Filippos Bellos, Jason Corso,
- Abstract要約: 最小限の文脈から連続座標空間のポーズを直接生成する新しいワンステージアーキテクチャを提案する。
私たちの重要なイノベーションは、中間表現やトークンベースの生成の必要性を排除することです。
提案手法は,特に長期発生シナリオにおいて,既存の量子化法と自己回帰法を著しく上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current approaches to pose generation rely heavily on intermediate representations, either through two-stage pipelines with quantization or autoregressive models that accumulate errors during inference. This fundamental limitation leads to degraded performance, particularly in long-term pose generation where maintaining temporal coherence is crucial. We propose a novel one-stage architecture that directly generates poses in continuous coordinate space from minimal context - a single RGB image and text description - while maintaining consistent distributions between training and inference. Our key innovation is eliminating the need for intermediate representations or token-based generation by operating directly on pose coordinates through a relative movement prediction mechanism that preserves spatial relationships, and a unified placeholder token approach that enables single-forward generation with identical behavior during training and inference. Through extensive experiments on Penn Action and First-Person Hand Action Benchmark (F-PHAB) datasets, we demonstrate that our approach significantly outperforms existing quantization-based and autoregressive methods, especially in long-term generation scenarios.
- Abstract(参考訳): ポーズ生成に対する現在のアプローチは、量子化を伴う2段階パイプラインか、推論中にエラーを蓄積する自己回帰モデルのいずれかを通じて、中間表現に大きく依存している。
この基本的な制限は、特に時間的コヒーレンスを維持することが不可欠である長期ポーズ生成において、性能低下につながる。
トレーニングと推論の間に一貫した分布を維持しつつ、最小限のRGB画像とテキスト記述から連続座標空間のポーズを直接生成する新しいワンステージアーキテクチャを提案する。
我々の重要な革新は、空間的関係を保った相対的な動き予測機構を通じて、ポーズ座標を直接操作することで、中間表現やトークンベースの生成の必要性を排除し、トレーニングや推論中に同一の振る舞いで単一フォワード生成を可能にする統一されたプレースホルダートークンアプローチである。
我々は、Penn ActionとFirst-Person Hand Action Benchmark(F-PHAB)データセットに関する広範な実験を通じて、我々のアプローチが、特に長期発生シナリオにおいて、既存の量子化法および自己回帰法を著しく上回っていることを実証した。
関連論文リスト
- Unified Flow Matching for Long Horizon Event Forecasting [3.0639815065447036]
本稿では,マーク付き時間点プロセスのための一貫したフローマッチングフレームワークを提案する。
両コンポーネントの連続時間フローを学習することにより,逐次復号化を伴わずにコヒーレントな長地平線イベントトラジェクトリを生成する。
実世界の6つのベンチマークでモデルを評価し,精度と生成効率の両面で自己回帰ベースラインと拡散ベースラインを大幅に改善した。
論文 参考訳(メタデータ) (2025-08-06T19:42:49Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Streaming Sign Language Production [0.0]
本稿では,自己回帰モデルと拡散モデルを組み合わせて手話生成(SLP)モデルを生成するハイブリッドアプローチを提案する。
細かな体の動きを捉えるため,異なるアーティストから細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
また、連立レベルの信頼スコアを利用してポーズ生成過程を動的にガイドする信頼意識型因果注意機構も導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。
最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。
本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:57:08Z) - Aligning Foundation Model Priors and Diffusion-Based Hand Interactions for Occlusion-Resistant Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置や閉塞が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本研究では,基礎モデルに基づく2次元先行モデルと拡散に基づく相互作用改善を組み込むことにより,手振りとインタラクションを正確に整合させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - Space and Time Continuous Physics Simulation From Partial Observations [0.0]
大規模機械学習に基づくデータ駆動方式は、より直接的かつ効率的に長距離依存関係を統合することにより、高い適応性を約束する。
我々は流体力学に焦点をあて、正規格子や不規則格子の形で計算と予測の固定的サポートに基づく文献の大部分の欠点に対処する。
本研究では,空間的・時間的領域の連続的な領域において,スパース観測を訓練しながら予測を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-17T13:24:04Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling [67.94143911629143]
ハンドポーズとアクションをモデル化するための生成型Transformer VAEアーキテクチャを提案する。
手ポーズとアクションのセマンティックな依存性と時間的粒度を忠実にモデル化するために、我々はこのフレームワークを2つのケース化されたVAEブロックに分解する。
その結果,独立解よりも認識と予測の連成モデリングが向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-29T05:28:39Z) - Triplet Attention Transformer for Spatiotemporal Predictive Learning [9.059462850026216]
本稿では,フレーム間動的特徴とフレーム内静的特徴の両方を捉えるために,革新的な三重項注意変換器を提案する。
このモデルはトリプレット・アテンション・モジュール(TAM)を組み込んだもので、時間、空間、チャネル次元における自己アテンションのメカニズムを探求することで、従来のリカレント・ユニットを置き換える。
論文 参考訳(メタデータ) (2023-10-28T12:49:33Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Supporting Optimal Phase Space Reconstructions Using Neural Network
Architecture for Time Series Modeling [68.8204255655161]
位相空間特性を暗黙的に学習する機構を持つ人工ニューラルネットワークを提案する。
私たちのアプローチは、ほとんどの最先端戦略と同じくらいの競争力があるか、あるいは優れているかのどちらかです。
論文 参考訳(メタデータ) (2020-06-19T21:04:47Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。