Fugu-MT 論文翻訳(概要): UniHand: A Unified Model for Diverse Controlled 4D Hand Motion Modeling

論文の概要: UniHand: A Unified Model for Diverse Controlled 4D Hand Motion Modeling

arxiv url: http://arxiv.org/abs/2602.21631v1
Date: Wed, 25 Feb 2026 06:53:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.732058
Title: UniHand: A Unified Model for Diverse Controlled 4D Hand Motion Modeling
Title（参考訳）: UniHand: 横制御4次元ハンドモーションモデリングのための統一モデル
Authors: Zhihao Sun, Tong Wu, Ruirui Tu, Daoguo Dong, Zuxuan Wu,
Abstract要約: UniHandは、条件付きモーション合成として推定と生成の両方を定式化する統合拡散ベースのフレームワークである。視覚観察は凍結したバックボーンで符号化され、専用のハンドパーセプトロンは画像特徴から直接手固有のキューを抽出する。潜在拡散モデルは、様々な条件から一貫した動き列を合成する。
参考スコア（独自算出の注目度）: 45.29560152294065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hand motion plays a central role in human interaction, yet modeling realistic 4D hand motion (i.e., 3D hand pose sequences over time) remains challenging. Research in this area is typically divided into two tasks: (1) Estimation approaches reconstruct precise motion from visual observations, but often fail under hand occlusion or absence; (2) Generation approaches focus on synthesizing hand poses by exploiting generative priors under multi-modal structured inputs and infilling motion from incomplete sequences. However, this separation not only limits the effective use of heterogeneous condition signals that frequently arise in practice, but also prevents knowledge transfer between the two tasks. We present UniHand, a unified diffusion-based framework that formulates both estimation and generation as conditional motion synthesis. UniHand integrates heterogeneous inputs by embedding structured signals into a shared latent space through a joint variational autoencoder, which aligns conditions such as MANO parameters and 2D skeletons. Visual observations are encoded with a frozen vision backbone, while a dedicated hand perceptron extracts hand-specific cues directly from image features, removing the need for complex detection and cropping pipelines. A latent diffusion model then synthesizes consistent motion sequences from these diverse conditions. Extensive experiments across multiple benchmarks demonstrate that UniHand delivers robust and accurate hand motion modeling, maintaining performance under severe occlusions and temporally incomplete inputs.
Abstract（参考訳）: ハンドモーションは人間のインタラクションにおいて中心的な役割を果たすが、現実的な4Dハンドモーション(つまり、時間とともに3Dハンドポーズシーケンス)をモデル化することは依然として困難である。この領域の研究は一般的に2つの課題に分けられる:(1) 視覚的観察から正確な動きを再構成するが、しばしば手の動きを無視または欠如に失敗する; (2) 生成的アプローチは、多モード構造入力の下で生成的先行を活用し、不完全なシーケンスからの動きを埋め込むことにより、手ポーズを合成することに焦点を当てる。しかし、この分離は、実際に頻繁に発生する異種条件信号の有効利用を制限するだけでなく、2つのタスク間の知識伝達を防ぐ。 We present UniHand, a unifiedfusion-based framework that formulas both estimation and generation as conditional motion synthesis。 UniHandは、MANOパラメータや2Dスケルトンなどの条件を整列する共同変分オートエンコーダを通じて、構造化された信号を共有潜在空間に埋め込むことによって異種入力を統合する。視覚観察は凍結した視覚バックボーンで符号化され、専用のハンドパーセプトロンは画像特徴から直接手固有のキューを抽出し、複雑な検出や収穫パイプラインの必要性を除去する。潜在拡散モデルは、これらの様々な条件から一貫した運動列を合成する。複数のベンチマークにわたる大規模な実験により、UniHandは頑健で正確な手の動きをモデリングし、厳密な閉塞下での性能を維持し、時間的に不完全であることを示す。

関連論文リスト

FUSION: Full-Body Unified Motion Prior for Body and Hands via Diffusion [49.026972478098266]
手は私たちの周囲と相互作用し、ジェスチャーを伝達する中心的存在です。既存のヒトの運動合成法は不足している。主な障害は、多様な全身の動きを共同でキャプチャする大規模なデータセットがないことである。
論文参考訳（メタデータ） (2026-01-07T14:18:59Z)
CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects [14.230098033626744]
人工物体の全身操作は、仮想人間やロボット工学の幅広い応用において、非常に困難な作業である。本研究では,現実的な全身運動を実現するための新しい拡散雑音最適化フレームワークを提案する。提案手法は,動作品質と身体的可視性において,既存の手法よりも優れていることを示す広範な実験を行う。
論文参考訳（メタデータ） (2025-05-27T17:11:50Z)
Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion [33.9786226622757]
テキスト記述から3次元動作を生成するための頑健な動き生成フレームワークMoMADiffを提案する。我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
論文参考訳（メタデータ） (2025-05-16T09:06:15Z)
GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文参考訳（メタデータ） (2025-05-02T17:59:55Z)
Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T14:42:27Z)
Gaze-guided Hand-Object Interaction Synthesis: Dataset and Method [61.19028558470065]
本稿では,視線,手,物間相互作用の3次元モデリングを同時に行う最初のデータセットであるGazeHOIを紹介する。これらの課題に対処するため,GHO-Diffusion という手動物体間相互作用拡散モデルを提案する。また, GHO拡散のサンプリング段階におけるHOI-Manifold Guidanceを導入し, 生成した動きのきめ細かい制御を可能にする。
論文参考訳（メタデータ） (2024-03-24T14:24:13Z)
GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。 GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文参考訳（メタデータ） (2023-08-22T17:59:51Z)
Diverse 3D Hand Gesture Prediction from Body Dynamics by Bilateral Hand Disentanglement [42.98335775548796]
両手指離断に基づく2段階手指生成手法を提案する。第1段階では、2つの手振り枝による自然な手振りを生成する。第2段階は、3Dハンドの予測は非決定論的であるべきだという洞察に基づいて構築されている。
論文参考訳（メタデータ） (2023-03-03T08:08:04Z)
A Non-Anatomical Graph Structure for isolated hand gesture separation in continuous gesture sequences [42.20687552354674]
我々はGCNモデルを提案し、それを積み重ねたBi-LSTMとAttentionモジュールと組み合わせて、ビデオストリームの時間情報をプッシュする。そこで本研究では,3次元手骨の特徴を増強する2層GCNモデルを提案する。
論文参考訳（メタデータ） (2022-07-15T17:28:52Z)
Monocular 3D Reconstruction of Interacting Hands via Collision-Aware Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文参考訳（メタデータ） (2021-11-01T08:24:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。