論文の概要: FUSION: Full-Body Unified Motion Prior for Body and Hands via Diffusion
- arxiv url: http://arxiv.org/abs/2601.03959v1
- Date: Wed, 07 Jan 2026 14:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.584315
- Title: FUSION: Full-Body Unified Motion Prior for Body and Hands via Diffusion
- Title(参考訳): FUSION:体と手が拡散する前のフルボディ統一運動
- Authors: Enes Duran, Nikos Athanasiou, Muhammed Kocabas, Michael J. Black, Omid Taheri,
- Abstract要約: 手は私たちの周囲と相互作用し、ジェスチャーを伝達する中心的存在です。
既存のヒトの運動合成法は不足している。
主な障害は、多様な全身の動きを共同でキャプチャする大規模なデータセットがないことである。
- 参考スコア(独自算出の注目度): 49.026972478098266
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hands are central to interacting with our surroundings and conveying gestures, making their inclusion essential for full-body motion synthesis. Despite this, existing human motion synthesis methods fall short: some ignore hand motions entirely, while others generate full-body motions only for narrowly scoped tasks under highly constrained settings. A key obstacle is the lack of large-scale datasets that jointly capture diverse full-body motion with detailed hand articulation. While some datasets capture both, they are limited in scale and diversity. Conversely, large-scale datasets typically focus either on body motion without hands or on hand motions without the body. To overcome this, we curate and unify existing hand motion datasets with large-scale body motion data to generate full-body sequences that capture both hand and body. We then propose the first diffusion-based unconditional full-body motion prior, FUSION, which jointly models body and hand motion. Despite using a pose-based motion representation, FUSION surpasses state-of-the-art skeletal control models on the Keypoint Tracking task in the HumanML3D dataset and achieves superior motion naturalness. Beyond standard benchmarks, we demonstrate that FUSION can go beyond typical uses of motion priors through two applications: (1) generating detailed full-body motion including fingers during interaction given the motion of an object, and (2) generating Self-Interaction motions using an LLM to transform natural language cues into actionable motion constraints. For these applications, we develop an optimization pipeline that refines the latent space of our diffusion model to generate task-specific motions. Experiments on these tasks highlight precise control over hand motion while maintaining plausible full-body coordination. The code will be public.
- Abstract(参考訳): 手は私たちの周囲と相互作用し、ジェスチャーを伝達する中心であり、フルボディのモーション合成に欠かせないものとなっている。
それにもかかわらず、既存の人間の動き合成法は、完全に手の動きを無視しているものもあれば、非常に制約された条件下での狭い範囲のタスクのためにのみ、全身の動きを生成するものもいる。
重要な障害は、広範囲のデータセットが欠如していることだ。
一部のデータセットは両方をキャプチャするが、スケールと多様性に制限がある。
逆に、大規模なデータセットは通常、手のない身体の動き、または体のない手の動きに焦点を当てる。
これを解決するために、我々は既存の手の動きデータセットを大規模な体の動きデータでキュレートし、統一し、手と体の両方をキャプチャするフルボディシーケンスを生成する。
次に,人体と手の動きをモデル化した最初の拡散型無条件全体運動FUSIONを提案する。
ポーズベースのモーション表現を使用しても、FUSIONはHumanML3Dデータセットのキーポイント追跡タスクにおける最先端の骨格制御モデルを超え、より優れたモーション自然性を達成する。
標準ベンチマークの他に, FUSION は,(1) 物体の動きを与えられた操作中に指を含む細かな全身運動を生成し, (2) LLM を用いて自己対話動作を生成し, 自然言語キューを動作可能な動作制約に変換する,という2つの応用を通じて, 動作先行の典型的な利用を超越できることを示した。
これらのアプリケーションに対して,タスク固有の動作を生成するために,拡散モデルの潜時空間を改良する最適化パイプラインを開発する。
これらのタスクの実験は、手の動きを正確に制御し、もっともらしい全体調整を維持しながら強調する。
コードは公開されます。
関連論文リスト
- CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects [14.230098033626744]
人工物体の全身操作は、仮想人間やロボット工学の幅広い応用において、非常に困難な作業である。
本研究では,現実的な全身運動を実現するための新しい拡散雑音最適化フレームワークを提案する。
提案手法は,動作品質と身体的可視性において,既存の手法よりも優れていることを示す広範な実験を行う。
論文 参考訳(メタデータ) (2025-05-27T17:11:50Z) - Diffgrasp: Whole-Body Grasping Synthesis Guided by Object Motion Using a Diffusion Model [25.00532805042292]
本稿では,身体,手,与えられた物体の動き列の関係をモデル化する,シンプルで効果的な枠組みを提案する。
我々は,新たな接触認識損失を導入し,データ駆動型,慎重に設計されたガイダンスを取り入れた。
実験の結果,本手法は最先端の手法より優れ,至適な全身運動系列を生成することがわかった。
論文 参考訳(メタデータ) (2024-12-30T02:21:43Z) - FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models [19.09048969615117]
MLLMをベースとしたユーザ制御信号として自然言語命令を用いたオープンなヒューマンモーション合成について検討する。
本手法は,多くの下流タスクにおいて,一般的な人間の動作合成を実現することができる。
論文 参考訳(メタデータ) (2024-06-15T21:10:37Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - Object Motion Guided Human Motion Synthesis [22.08240141115053]
大規模物体の操作におけるフルボディ人体動作合成の問題点について検討する。
条件付き拡散フレームワークであるOMOMO(Object Motion Guided Human Motion synthesis)を提案する。
我々は、操作対象物にスマートフォンを装着するだけで、全身の人間の操作動作をキャプチャする新しいシステムを開発した。
論文 参考訳(メタデータ) (2023-09-28T08:22:00Z) - GRIP: Generating Interaction Poses Using Spatial Cues and Latent Consistency [57.9920824261925]
手は器用で多用途なマニピュレータであり、人間が物体や環境とどのように相互作用するかの中心である。
現実的な手オブジェクトの相互作用をモデル化することは、コンピュータグラフィックス、コンピュータビジョン、混合現実の応用において重要である。
GRIPは、体と物体の3次元運動を入力として取り、物体の相互作用の前、中、後の両方の両手の現実的な動きを合成する学習ベースの手法である。
論文 参考訳(メタデータ) (2023-08-22T17:59:51Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Task-Generic Hierarchical Human Motion Prior using VAEs [44.356707509079044]
人間の動きを記述する深い生成モデルは、幅広いコンピュータビジョンやグラフィックタスクに役立てることができる。
本稿では,グローバル・ローカル・ラテント・スペースの組み合わせを用いて,特定のタスクに依存しない複雑な人間の動作を学習する手法を提案する。
映像に基づく人間のポーズ推定を含む様々なタスクにおいて,階層的な動き変動自動エンコーダの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-07T23:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。