論文の概要: HINT: Hierarchical Interaction Modeling for Autoregressive Multi-Human Motion Generation
- arxiv url: http://arxiv.org/abs/2601.20383v1
- Date: Wed, 28 Jan 2026 08:47:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.854897
- Title: HINT: Hierarchical Interaction Modeling for Autoregressive Multi-Human Motion Generation
- Title(参考訳): HINT:自己回帰型マルチヒューマン運動生成のための階層的相互作用モデリング
- Authors: Mengge Liu, Yan Di, Gu Wang, Yun Qu, Dekai Zhu, Yanyan Li, Xiangyang Ji,
- Abstract要約: HINTは,階層的インタラクティクスモデリングを応用した多関節モーション生成のための最初の自動回帰フレームワークである。
第一に、HINTは正準化潜在空間内でのゆがみのある動きの表現を活用し、局所的な動きのセマンティクスを対人インタラクションから切り離す。
第二に、HINTは効率的なオンライン生成のためのスライドウインドウ戦略を採用し、局所的なウィンドウ内およびグローバルなクロスウインドウ条件を集約し、過去の人類の歴史、個人間の依存関係を捉え、テキストガイダンスと整合する。
- 参考スコア(独自算出の注目度): 55.73037290387896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven multi-human motion generation with complex interactions remains a challenging problem. Despite progress in performance, existing offline methods that generate fixed-length motions with a fixed number of agents, are inherently limited in handling long or variable text, and varying agent counts. These limitations naturally encourage autoregressive formulations, which predict future motions step by step conditioned on all past trajectories and current text guidance. In this work, we introduce HINT, the first autoregressive framework for multi-human motion generation with Hierarchical INTeraction modeling in diffusion. First, HINT leverages a disentangled motion representation within a canonicalized latent space, decoupling local motion semantics from inter-person interactions. This design facilitates direct adaptation to varying numbers of human participants without requiring additional refinement. Second, HINT adopts a sliding-window strategy for efficient online generation, and aggregates local within-window and global cross-window conditions to capture past human history, inter-person dependencies, and align with text guidance. This strategy not only enables fine-grained interaction modeling within each window but also preserves long-horizon coherence across all the long sequence. Extensive experiments on public benchmarks demonstrate that HINT matches the performance of strong offline models and surpasses autoregressive baselines. Notably, on InterHuman, HINT achieves an FID of 3.100, significantly improving over the previous state-of-the-art score of 5.154.
- Abstract(参考訳): 複雑な相互作用を持つテキスト駆動多人動作生成は依然として難しい問題である。
パフォーマンスの進歩にもかかわらず、固定数のエージェントで固定長のモーションを生成する既存のオフラインメソッドは、本質的に長文や可変テキストを扱う場合に限られており、エージェント数も様々である。
これらの制限は自然に自己回帰的定式化を奨励し、過去のすべての軌跡と現在のテキストガイダンスに基づいてステップバイステップで将来の動きを予測する。
本研究では,階層的インテリアクションモデルを用いた多関節運動生成のための最初の自己回帰フレームワークであるHINTを紹介する。
第一に、HINTは正準化潜在空間内でのゆがみのある動きの表現を活用し、局所的な動きのセマンティクスを対人インタラクションから切り離す。
この設計は、追加の洗練を必要とせず、様々な数の人への直接適応を促進する。
第二に、HINTは効率的なオンライン生成のためのスライドウインドウ戦略を採用し、局所的なウィンドウ内およびグローバルなクロスウインドウ条件を集約し、過去の人類の歴史、個人間の依存関係を捉え、テキストガイダンスと整合する。
この戦略は、各ウィンドウ内でのきめ細かい相互作用モデリングを可能にするだけでなく、全ての長いシーケンスにわたって長い水平コヒーレンスを保持する。
公開ベンチマークに関する大規模な実験は、HINTが強いオフラインモデルのパフォーマンスと一致し、自己回帰ベースラインを超えることを示した。
特にInterHumanでは、HINTのFIDは3.100で、これまでの5.154よりも大幅に改善されている。
関連論文リスト
- Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models [80.28579390566298]
テキスト条件付き自己回帰拡散モデルであるInteract2Arを導入する。
ハンドキネマティクスは専用のパラレルブランチを通じて組み込まれ、高忠実度フルボディ生成を可能にする。
我々のモデルは、時間的動きの合成、外乱へのリアルタイム適応、ディヤディックからマルチパーソンシナリオへの拡張など、一連のダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-12-22T18:59:50Z) - Diffusion Forcing for Multi-Agent Interaction Sequence Modeling [52.769202433667125]
MAGNetはマルチエージェントモーション生成のための統合された自己回帰拡散フレームワークである。
フレキシブルな条件付けとサンプリングを通じて、幅広いインタラクションタスクをサポートする。
緊密に同期された活動と、ゆるやかに構造化された社会的相互作用の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-12-19T18:59:02Z) - InterAgent: Physics-based Multi-agent Command Execution via Diffusion on Interaction Graphs [72.5651722107621]
InterAgentはテキスト駆動型物理ベースのマルチエージェントヒューマノイド制御のためのエンドツーエンドフレームワークである。
本稿では,マルチストリームブロックを備えた自己回帰拡散トランスフォーマーを提案する。
また,空間依存性の微粒化を明示的に捉えた対話グラフのエクスセプション表現を提案する。
論文 参考訳(メタデータ) (2025-12-08T10:46:01Z) - Fine-grained text-driven dual-human motion generation via dynamic hierarchical interaction [31.055662466004254]
本研究では,動的階層的相互作用をモデル化するための微細なデュアルヒューマンモーション生成法,すなわちファインダールを提案する。
最初の段階である自己学習段階(Self-Learning Stage)は、二重人間全体のテキストを個々のテキストに分割する。
第2段階である適応調整段階(Adaptive Adjustment Stage)は、相互作用距離予測器によって相互作用距離を予測する。
最後のステージであるTeacher-Guided Refinement Stageは、全体レベルでの動作機能を洗練するためのガイダンスとして、全体的なテキスト機能を利用する。
論文 参考訳(メタデータ) (2025-10-09T14:18:53Z) - Text2Interact: High-Fidelity and Diverse Text-to-Two-Person Interaction Generation [39.67266918328847]
本研究では,現実的なテキスト・ヒューマンインタラクションを生成するためのText2フレームワークを提案する。
本稿では,対話記述と強いシングルパーソン動作を協調する合成合成パイプラインであるInterComposeを提案する。
また,トークンレベルの手がかりを保存した単語レベルの条件付きテキスト対話モデルであるInterActorを提案する。
論文 参考訳(メタデータ) (2025-10-07T22:41:23Z) - MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。
2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T14:31:41Z) - Auto-Regressive Diffusion for Generating 3D Human-Object Interactions [5.587507490937267]
HOI生成の鍵となる課題は、長いシーケンスでの相互作用の一貫性を維持することである。
本稿では,次の連続トークンを予測する自己回帰拡散モデル(ARDHOI)を提案する。
このモデルはOMOMOとBEHAVEのデータセットで評価されている。
論文 参考訳(メタデータ) (2025-03-21T02:25:59Z) - Two-in-One: Unified Multi-Person Interactive Motion Generation by Latent Diffusion Transformer [24.166147954731652]
多人数対話型モーション生成はコンピュータ・キャラクター・アニメーションにおける重要な領域であるが、未探索領域である。
現在の研究では、個々の動作に別々のモジュールブランチを使用することが多いため、インタラクション情報が失われる。
本稿では,複数の人物の動きとその相互作用を1つの潜在空間内でモデル化する,新しい統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-21T15:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。