論文の概要: Fine-grained text-driven dual-human motion generation via dynamic hierarchical interaction
- arxiv url: http://arxiv.org/abs/2510.08260v1
- Date: Thu, 09 Oct 2025 14:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.122037
- Title: Fine-grained text-driven dual-human motion generation via dynamic hierarchical interaction
- Title(参考訳): 動的階層的相互作用による微細なテキスト駆動型デュアルヒューマンモーション生成
- Authors: Mu Li, Yin Wang, Zhiying Leng, Jiapeng Liu, Frederick W. B. Li, Xiaohui Liang,
- Abstract要約: 本研究では,動的階層的相互作用をモデル化するための微細なデュアルヒューマンモーション生成法,すなわちファインダールを提案する。
最初の段階である自己学習段階(Self-Learning Stage)は、二重人間全体のテキストを個々のテキストに分割する。
第2段階である適応調整段階(Adaptive Adjustment Stage)は、相互作用距離予測器によって相互作用距離を予測する。
最後のステージであるTeacher-Guided Refinement Stageは、全体レベルでの動作機能を洗練するためのガイダンスとして、全体的なテキスト機能を利用する。
- 参考スコア(独自算出の注目度): 31.055662466004254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human interaction is inherently dynamic and hierarchical, where the dynamic refers to the motion changes with distance, and the hierarchy is from individual to inter-individual and ultimately to overall motion. Exploiting these properties is vital for dual-human motion generation, while existing methods almost model human interaction temporally invariantly, ignoring distance and hierarchy. To address it, we propose a fine-grained dual-human motion generation method, namely FineDual, a tri-stage method to model the dynamic hierarchical interaction from individual to inter-individual. The first stage, Self-Learning Stage, divides the dual-human overall text into individual texts through a Large Language Model, aligning text features and motion features at the individual level. The second stage, Adaptive Adjustment Stage, predicts interaction distance by an interaction distance predictor, modeling human interactions dynamically at the inter-individual level by an interaction-aware graph network. The last stage, Teacher-Guided Refinement Stage, utilizes overall text features as guidance to refine motion features at the overall level, generating fine-grained and high-quality dual-human motion. Extensive quantitative and qualitative evaluations on dual-human motion datasets demonstrate that our proposed FineDual outperforms existing approaches, effectively modeling dynamic hierarchical human interaction.
- Abstract(参考訳): 人間の相互作用は本質的に動的で階層的であり、ダイナミックは距離によって動きが変化し、階層は個人から個人へ、究極的には総運動へと変化する。
これらの特性を爆発させることは、双対のモーション生成に不可欠であるが、既存の方法は、ほぼ時間的不変に人間の相互作用をモデル化し、距離と階層性を無視している。
そこで本研究では,個人間の動的階層的相互作用をモデル化するファインダールという,微細なデュアルヒューマンモーション生成手法を提案する。
最初の段階であるセルフラーニング段階(Self-Learning Stage)は、人間の全体テキストを大言語モデルを通じて個別のテキストに分割し、テキストの特徴と動作の特徴を個別のレベルで整列させる。
第2段階である適応調整段階(Adaptive Adjustment Stage)は、相互作用距離予測器により相互作用距離を予測し、相互作用認識グラフネットワークにより人間同士の相互作用を動的にモデル化する。
最後のステージであるTeacher-Guided Refinement Stageは、全体的なテキスト機能を利用して、全体レベルでのモーション機能を洗練し、きめ細かい、高品質なデュアルヒューマンモーションを生成する。
デュアルヒューマン・モーション・データセットの大規模定量的および定性的な評価は、提案したファインダールが既存のアプローチより優れており、動的階層的人間の相互作用を効果的にモデル化していることを示している。
関連論文リスト
- MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。
2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T14:31:41Z) - Multi-Person Interaction Generation from Two-Person Motion Priors [7.253302825595181]
グラフ駆動インタラクションサンプリングは、現実的で多様な多人数インタラクションを生成する方法である。
生成タスクを、互いの動作に条件付けられた同時1対1の動作生成に分解する。
提案手法は,多人数・多人数のインタラクションを広範囲に生成する際の工芸品の削減において,既存の手法よりも一貫して優れる。
論文 参考訳(メタデータ) (2025-05-23T13:13:00Z) - Two-in-One: Unified Multi-Person Interactive Motion Generation by Latent Diffusion Transformer [24.166147954731652]
多人数対話型モーション生成はコンピュータ・キャラクター・アニメーションにおける重要な領域であるが、未探索領域である。
現在の研究では、個々の動作に別々のモジュールブランチを使用することが多いため、インタラクション情報が失われる。
本稿では,複数の人物の動きとその相互作用を1つの潜在空間内でモデル化する,新しい統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-21T15:35:50Z) - in2IN: Leveraging individual Information to Generate Human INteractions [29.495166514135295]
In2IN(in2IN)は、人間と人間の動作生成を個別に記述した新しい拡散モデルである。
In2INで生成された動きと、HumanML3Dで事前訓練された1人の動きによって生成された動きとを組み合わせたモデル合成手法であるDualMDMを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:59:04Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。