論文の概要: UniHand: A Unified Model for Diverse Controlled 4D Hand Motion Modeling
- arxiv url: http://arxiv.org/abs/2602.21631v1
- Date: Wed, 25 Feb 2026 06:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.732058
- Title: UniHand: A Unified Model for Diverse Controlled 4D Hand Motion Modeling
- Title(参考訳): UniHand: 横制御4次元ハンドモーションモデリングのための統一モデル
- Authors: Zhihao Sun, Tong Wu, Ruirui Tu, Daoguo Dong, Zuxuan Wu,
- Abstract要約: UniHandは、条件付きモーション合成として推定と生成の両方を定式化する統合拡散ベースのフレームワークである。
視覚観察は凍結したバックボーンで符号化され、専用のハンドパーセプトロンは画像特徴から直接手固有のキューを抽出する。
潜在拡散モデルは、様々な条件から一貫した動き列を合成する。
- 参考スコア(独自算出の注目度): 45.29560152294065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand motion plays a central role in human interaction, yet modeling realistic 4D hand motion (i.e., 3D hand pose sequences over time) remains challenging. Research in this area is typically divided into two tasks: (1) Estimation approaches reconstruct precise motion from visual observations, but often fail under hand occlusion or absence; (2) Generation approaches focus on synthesizing hand poses by exploiting generative priors under multi-modal structured inputs and infilling motion from incomplete sequences. However, this separation not only limits the effective use of heterogeneous condition signals that frequently arise in practice, but also prevents knowledge transfer between the two tasks. We present UniHand, a unified diffusion-based framework that formulates both estimation and generation as conditional motion synthesis. UniHand integrates heterogeneous inputs by embedding structured signals into a shared latent space through a joint variational autoencoder, which aligns conditions such as MANO parameters and 2D skeletons. Visual observations are encoded with a frozen vision backbone, while a dedicated hand perceptron extracts hand-specific cues directly from image features, removing the need for complex detection and cropping pipelines. A latent diffusion model then synthesizes consistent motion sequences from these diverse conditions. Extensive experiments across multiple benchmarks demonstrate that UniHand delivers robust and accurate hand motion modeling, maintaining performance under severe occlusions and temporally incomplete inputs.
- Abstract(参考訳): ハンドモーションは人間のインタラクションにおいて中心的な役割を果たすが、現実的な4Dハンドモーション(つまり、時間とともに3Dハンドポーズシーケンス)をモデル化することは依然として困難である。
この領域の研究は一般的に2つの課題に分けられる:(1) 視覚的観察から正確な動きを再構成するが、しばしば手の動きを無視または欠如に失敗する; (2) 生成的アプローチは、多モード構造入力の下で生成的先行を活用し、不完全なシーケンスからの動きを埋め込むことにより、手ポーズを合成することに焦点を当てる。
しかし、この分離は、実際に頻繁に発生する異種条件信号の有効利用を制限するだけでなく、2つのタスク間の知識伝達を防ぐ。
We present UniHand, a unifiedfusion-based framework that formulas both estimation and generation as conditional motion synthesis。
UniHandは、MANOパラメータや2Dスケルトンなどの条件を整列する共同変分オートエンコーダを通じて、構造化された信号を共有潜在空間に埋め込むことによって異種入力を統合する。
視覚観察は凍結した視覚バックボーンで符号化され、専用のハンドパーセプトロンは画像特徴から直接手固有のキューを抽出し、複雑な検出や収穫パイプラインの必要性を除去する。
潜在拡散モデルは、これらの様々な条件から一貫した運動列を合成する。
複数のベンチマークにわたる大規模な実験により、UniHandは頑健で正確な手の動きをモデリングし、厳密な閉塞下での性能を維持し、時間的に不完全であることを示す。
関連論文リスト
- FUSION: Full-Body Unified Motion Prior for Body and Hands via Diffusion [49.026972478098266]
手は私たちの周囲と相互作用し、ジェスチャーを伝達する中心的存在です。
既存のヒトの運動合成法は不足している。
主な障害は、多様な全身の動きを共同でキャプチャする大規模なデータセットがないことである。
論文 参考訳(メタデータ) (2026-01-07T14:18:59Z) - Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion [33.9786226622757]
テキスト記述から3次元動作を生成するための頑健な動き生成フレームワークMoMADiffを提案する。
我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。
提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
論文 参考訳(メタデータ) (2025-05-16T09:06:15Z) - Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method [61.19028558470065]
本稿では,視線,手,物間相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを紹介する。
これらの課題に対処するため,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。
また, GHO拡散のサンプリング段階におけるHOI-Manifold Guidanceを導入し, 生成した動きのきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-03-24T14:24:13Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - Diverse 3D Hand Gesture Prediction from Body Dynamics by Bilateral Hand
Disentanglement [42.98335775548796]
両手指離断に基づく2段階手指生成手法を提案する。
第1段階では、2つの手振り枝による自然な手振りを生成する。
第2段階は、3Dハンドの予測は非決定論的であるべきだという洞察に基づいて構築されている。
論文 参考訳(メタデータ) (2023-03-03T08:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。