論文の概要: InterAgent: Physics-based Multi-agent Command Execution via Diffusion on Interaction Graphs
- arxiv url: http://arxiv.org/abs/2512.07410v2
- Date: Fri, 12 Dec 2025 09:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 13:50:28.996196
- Title: InterAgent: Physics-based Multi-agent Command Execution via Diffusion on Interaction Graphs
- Title(参考訳): InterAgent: 相互作用グラフ上の拡散による物理に基づくマルチエージェントコマンド実行
- Authors: Bin Li, Ruichi Zhang, Han Liang, Jingyan Zhang, Juze Zhang, Xin Chen, Lan Xu, Jingyi Yu, Jingya Wang,
- Abstract要約: InterAgentはテキスト駆動型物理ベースのマルチエージェントヒューマノイド制御のためのエンドツーエンドフレームワークである。
本稿では,マルチストリームブロックを備えた自己回帰拡散トランスフォーマーを提案する。
また,空間依存性の微粒化を明示的に捉えた対話グラフのエクスセプション表現を提案する。
- 参考スコア(独自算出の注目度): 72.5651722107621
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humanoid agents are expected to emulate the complex coordination inherent in human social behaviors. However, existing methods are largely confined to single-agent scenarios, overlooking the physically plausible interplay essential for multi-agent interactions. To bridge this gap, we propose InterAgent, the first end-to-end framework for text-driven physics-based multi-agent humanoid control. At its core, we introduce an autoregressive diffusion transformer equipped with multi-stream blocks, which decouples proprioception, exteroception, and action to mitigate cross-modal interference while enabling synergistic coordination. We further propose a novel interaction graph exteroception representation that explicitly captures fine-grained joint-to-joint spatial dependencies to facilitate network learning. Additionally, within it we devise a sparse edge-based attention mechanism that dynamically prunes redundant connections and emphasizes critical inter-agent spatial relations, thereby enhancing the robustness of interaction modeling. Extensive experiments demonstrate that InterAgent consistently outperforms multiple strong baselines, achieving state-of-the-art performance. It enables producing coherent, physically plausible, and semantically faithful multi-agent behaviors from only text prompts. Our code and data will be released to facilitate future research.
- Abstract(参考訳): ヒューマノイド剤は、人間の社会的行動に固有の複雑な調整をエミュレートすることが期待されている。
しかし、既存の手法は主に単一エージェントのシナリオに限られており、マルチエージェントの相互作用に不可欠な物理的に妥当な相互作用を見下ろしている。
このギャップを埋めるために、テキスト駆動型物理に基づくマルチエージェントヒューマノイド制御のための最初のエンドツーエンドフレームワークであるInterAgentを提案する。
マルチストリームブロックを具備した自己回帰拡散トランスフォーマを導入し, 相乗的コーディネーションを実現しつつ, 相乗的干渉を軽減し, 自己回帰拡散トランスフォーマを導入する。
さらに、ネットワーク学習を容易にするために、きめ細かな結合空間依存を明示的にキャプチャする、新しい相互作用グラフのエクステラセプション表現を提案する。
さらに、冗長な接続を動的に引き起こし、重要なエージェント間空間関係を強調し、相互作用モデリングの堅牢性を高める、疎いエッジベースアテンション機構を考案した。
大規模な実験により、InterAgentは複数の強いベースラインを一貫して上回り、最先端のパフォーマンスを実現している。
テキストプロンプトのみから、一貫性があり、物理的に妥当で、意味的に忠実なマルチエージェント動作を生成することができる。
私たちのコードとデータは、将来の研究を促進するためにリリースされます。
関連論文リスト
- Text2Interact: High-Fidelity and Diverse Text-to-Two-Person Interaction Generation [39.67266918328847]
本研究では,現実的なテキスト・ヒューマンインタラクションを生成するためのText2フレームワークを提案する。
本稿では,対話記述と強いシングルパーソン動作を協調する合成合成パイプラインであるInterComposeを提案する。
また,トークンレベルの手がかりを保存した単語レベルの条件付きテキスト対話モデルであるInterActorを提案する。
論文 参考訳(メタデータ) (2025-10-07T22:41:23Z) - HeLoFusion: An Efficient and Scalable Encoder for Modeling Heterogeneous and Multi-Scale Interactions in Trajectory Prediction [11.30785902722196]
HeLoFusionは、異種およびマルチスケールエージェントインタラクションをモデリングするための効率的でスケーラブルなエンコーダである。
本研究は,マルチスケールおよび異種相互作用を明示的にモデル化した局所性グラウンドアーキテクチャが,動き予測を推し進めるための極めて効果的な戦略であることを実証する。
論文 参考訳(メタデータ) (2025-09-15T09:19:41Z) - AnyMAC: Cascading Flexible Multi-Agent Collaboration via Next-Agent Prediction [77.62279834617475]
本稿では,グラフ構造ではなくシーケンシャル構造を用いて,マルチエージェント協調を再考するフレームワークを提案する。
提案手法は,(1)各ステップで最も適したエージェントロールを選択するNext-Agent Predictionと,(2)各エージェントが前ステップから関連する情報にアクセスできるようにするNext-Context Selectionの2つの重要な方向に焦点を当てる。
論文 参考訳(メタデータ) (2025-06-21T18:34:43Z) - Relation Learning and Aggregate-attention for Multi-person Motion Prediction [13.052342503276936]
多対人動作予測は、骨格構造や人間の軌道だけでなく、他者との相互作用も考慮している。
それまでの手法では、個人内の結合関係(イントラリレーション)とグループ間の相互作用(インターリレーション)は異なる種類の表現であるとしばしば見落としていた。
我々はこれらの関係を明示的にモデル化する多人数動作予測のための新しい協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-06T07:48:30Z) - Scaling Large Language Model-based Multi-Agent Collaboration [72.8998796426346]
近年の大規模言語モデル駆動型自律エージェントのブレークスルーにより、複数エージェントのコラボレーションが集団的推論を通じて各個人を上回ることが判明している。
本研究は、協調剤の連続的な添加が同様の利益をもたらすかどうかを考察する。
論文 参考訳(メタデータ) (2024-06-11T11:02:04Z) - Rethinking Trajectory Prediction via "Team Game" [118.59480535826094]
本稿では,対話型グループコンセンサスの概念を明示的に導入した,マルチエージェント軌道予測の新しい定式化について述べる。
チームスポーツと歩行者の2つのマルチエージェント設定において,提案手法は既存手法と比較して常に優れた性能を達成している。
論文 参考訳(メタデータ) (2022-10-17T07:16:44Z) - Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning [39.4394389642761]
本稿では,対話型対話を対話型プロトタイプに切り離すための新しい対話型On Pattern DisenTangling (OPT) 手法を提案する。
OPTは無関係な実体間のノイズの相互作用をフィルタリングしやすくし、一般化可能性や解釈可能性を大幅に向上させる。
単一タスク,マルチタスク,ゼロショットのベンチマーク実験により,提案手法が最先端のベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-08T13:42:54Z) - Unlimited Neighborhood Interaction for Heterogeneous Trajectory
Prediction [97.40338982628094]
マルチプライカテゴリにおける異種エージェントの軌跡を予測できる,シンプルで効果的な非境界相互作用ネットワーク (UNIN) を提案する。
具体的には、提案した無制限近傍相互作用モジュールは、相互作用に関与するすべてのエージェントの融合特徴を同時に生成する。
階層型グラフアテンションモジュールを提案し,カテゴリ間相互作用とエージェント間相互作用を求める。
論文 参考訳(メタデータ) (2021-07-31T13:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。