論文の概要: Diffusion Forcing for Multi-Agent Interaction Sequence Modeling
- arxiv url: http://arxiv.org/abs/2512.17900v1
- Date: Fri, 19 Dec 2025 18:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.538308
- Title: Diffusion Forcing for Multi-Agent Interaction Sequence Modeling
- Title(参考訳): 多エージェントインタラクションシーケンスモデリングのための拡散強制
- Authors: Vongani H. Maluleke, Kie Horiuchi, Lea Wilken, Evonne Ng, Jitendra Malik, Angjoo Kanazawa,
- Abstract要約: MAGNetはマルチエージェントモーション生成のための統合された自己回帰拡散フレームワークである。
フレキシブルな条件付けとサンプリングを通じて、幅広いインタラクションタスクをサポートする。
緊密に同期された活動と、ゆるやかに構造化された社会的相互作用の両方をキャプチャする。
- 参考スコア(独自算出の注目度): 52.769202433667125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and generating multi-person interactions is a fundamental challenge with broad implications for robotics and social computing. While humans naturally coordinate in groups, modeling such interactions remains difficult due to long temporal horizons, strong inter-agent dependencies, and variable group sizes. Existing motion generation methods are largely task-specific and do not generalize to flexible multi-agent generation. We introduce MAGNet (Multi-Agent Diffusion Forcing Transformer), a unified autoregressive diffusion framework for multi-agent motion generation that supports a wide range of interaction tasks through flexible conditioning and sampling. MAGNet performs dyadic prediction, partner inpainting, and full multi-agent motion generation within a single model, and can autoregressively generate ultra-long sequences spanning hundreds of v. Building on Diffusion Forcing, we introduce key modifications that explicitly model inter-agent coupling during autoregressive denoising, enabling coherent coordination across agents. As a result, MAGNet captures both tightly synchronized activities (e.g, dancing, boxing) and loosely structured social interactions. Our approach performs on par with specialized methods on dyadic benchmarks while naturally extending to polyadic scenarios involving three or more interacting people, enabled by a scalable architecture that is agnostic to the number of agents. We refer readers to the supplemental video, where the temporal dynamics and spatial coordination of generated interactions are best appreciated. Project page: https://von31.github.io/MAGNet/
- Abstract(参考訳): 複数対人インタラクションの理解と生成は、ロボット工学とソーシャルコンピューティングに幅広い意味を持つ基本的な課題である。
人間は自然にグループで協調するが、長い時間的地平線、強いエージェント間の依存関係、変動するグループサイズのためにそのような相互作用をモデル化することは困難である。
既存の動作生成法は主にタスク固有であり、柔軟なマルチエージェント生成には一般化しない。
本稿では,多エージェントモーション生成のための統合自己回帰拡散フレームワークであるMAGNet(Multi-Agent Diffusion Forcing Transformer)を紹介する。
MAGNetは、単一のモデル内でダイアディック予測、パートナーインパインティング、および完全なマルチエージェントモーション生成を実行し、数百 vに及ぶ超長いシーケンスを自動回帰的に生成する。
その結果、MAGNetは緊密に同期された活動(ダンス、ボクシングなど)とゆるく構造化された社会的相互作用の両方をキャプチャする。
提案手法は,エージェント数に依存しないスケーラブルなアーキテクチャにより,3人以上の対話者を含む多言語シナリオに自然に拡張しながら,dyadicベンチマークの特殊な手法と同等に機能する。
筆者らは、生成した相互作用の時間的ダイナミクスと空間的コーディネーションを最もよく評価する補足的ビデオについて、読者に言及する。
プロジェクトページ: https://von31.github.io/MAGNet/
関連論文リスト
- InterAgent: Physics-based Multi-agent Command Execution via Diffusion on Interaction Graphs [72.5651722107621]
InterAgentはテキスト駆動型物理ベースのマルチエージェントヒューマノイド制御のためのエンドツーエンドフレームワークである。
本稿では,マルチストリームブロックを備えた自己回帰拡散トランスフォーマーを提案する。
また,空間依存性の微粒化を明示的に捉えた対話グラフのエクスセプション表現を提案する。
論文 参考訳(メタデータ) (2025-12-08T10:46:01Z) - HeLoFusion: An Efficient and Scalable Encoder for Modeling Heterogeneous and Multi-Scale Interactions in Trajectory Prediction [11.30785902722196]
HeLoFusionは、異種およびマルチスケールエージェントインタラクションをモデリングするための効率的でスケーラブルなエンコーダである。
本研究は,マルチスケールおよび異種相互作用を明示的にモデル化した局所性グラウンドアーキテクチャが,動き予測を推し進めるための極めて効果的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-09-15T09:19:41Z) - Multi-Person Interaction Generation from Two-Person Motion Priors [7.253302825595181]
グラフ駆動インタラクションサンプリングは、現実的で多様な多人数インタラクションを生成する方法である。
生成タスクを、互いの動作に条件付けられた同時1対1の動作生成に分解する。
提案手法は,多人数・多人数のインタラクションを広範囲に生成する際の工芸品の削減において,既存の手法よりも一貫して優れる。
論文 参考訳(メタデータ) (2025-05-23T13:13:00Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。