論文の概要: Embodied Multi-Agent Coordination by Aligning World Models Through Dialogue
- arxiv url: http://arxiv.org/abs/2605.12920v2
- Date: Sat, 16 May 2026 03:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.798357
- Title: Embodied Multi-Agent Coordination by Aligning World Models Through Dialogue
- Title(参考訳): 対話による世界モデル調整によるマルチエージェントコーディネーション
- Authors: Vardhan Dongre, Dilek Hakkani-Tür,
- Abstract要約: コミュニケーションは、エージェントが観察を共有し、彼らの世界モデルを調整することによって、このギャップを埋めることができます。
協調型家庭用ロボティクスのベンチマークであるPartinNRを自然言語対話チャネルで拡張し、部分的可観測性を持つ2つのエージェント間の通信を可能にした。
実験の結果,対話は40~83ポイントのアクションコンフリクトを減少させるが,サイレントコーディネートに対してタスク成功を低下させることがわかった。
- 参考スコア(独自算出の注目度): 9.790389620810933
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Effective collaboration between embodied agents requires more than acting in a shared environment; it demands communication grounded in each agent's evolving understanding of the world. When agents can only partially observe their surroundings, coordination without communication is provably hard, but communication can, in principle, bridge this gap by allowing agents to share observations and align their world models. In this work, we examine whether LLM-based embodied agents actually realize the ability to communicate. We extend PARTNR, a benchmark for collaborative household robotics, with a natural-language dialogue channel that enables two agents with partial observability to communicate during task execution. To evaluate whether dialogue leads to genuine world-model alignment rather than superficial coordination, we propose a framework for measuring world-model alignment defined over per-agent world graphs: observation convergence (do private world models align over time?), information novelty (do messages convey what the partner lacks?), and belief-sensitive messaging (do agents model what their partner knows?). Our experiments across three LLMs reveal that dialogue reduces action conflicts 40 to 83 percentage points but degrades task success relative to silent coordination. Using our metrics, we characterize the gap between superficial coordination and genuine world-model alignment, and identify where current models fall on this spectrum.
- Abstract(参考訳): 具体的エージェント間の効果的なコラボレーションは、共有環境での行動以上のものを必要とし、各エージェントの世界の進化的理解に根ざしたコミュニケーションを要求する。
エージェントが周囲を部分的にしか観察できない場合、コミュニケーションのない調整は間違いなく難しいが、コミュニケーションは原則として、エージェントが観察を共有し、世界モデルを整列させることによって、このギャップを埋めることができる。
本研究では,LLMをベースとしたエンボディエージェントが実際にコミュニケーション能力を実現するかどうかを検討する。
協調型家庭用ロボットのベンチマークであるPartinNRを自然言語対話チャネルで拡張し、タスク実行中に部分観測可能性を持つ2つのエージェントが通信できるようにした。
本研究では,対話が表面的な協調よりも真の世界モデルアライメントに繋がるかどうかを評価するために,観察収束(プライベートワールドモデルは時間とともに整列するのか),情報ノベルティ(メッセージはパートナーに欠けているものを伝えるのか),信念に敏感なメッセージング(エージェントはパートナーが知っているものをモデル化するのか?)という,エージェントごとの世界モデルアライメントを測定する枠組みを提案する。
3つのLDMを対象とした実験の結果,対話は40~83ポイントの動作競合を減少させるが,無声協調よりもタスク成功を低下させることがわかった。
計測値を用いて、表面調整と真の世界モデルアライメントのギャップを特徴づけ、現在のモデルがこのスペクトルのどこに落ちるかを特定する。
関連論文リスト
- Learning to Interact in World Latent for Team Coordination [53.51290193631586]
本研究は,多エージェント強化学習(MARL)におけるチーム協調を支援するために,対話型ワールドラテント(IWoL)という新しい表現学習フレームワークを提案する。
コミュニケーションプロトコルを直接モデル化することにより,エージェント間関係とタスク固有の世界情報とを協調的にキャプチャする学習可能な表現空間を構築する。
私たちの表現は、各エージェントの暗黙のラテントとしてだけでなく、コミュニケーションのための明示的なメッセージとしても使用できます。
論文 参考訳(メタデータ) (2025-09-29T22:13:39Z) - Communicating Plans, Not Percepts: Scalable Multi-Agent Coordination with Embodied World Models [0.0]
MARL(Multi-Agent Reinforcement Learning)の中心的な疑問は、通信プロトコルを設計するか、エンドツーエンドで学習するかである。
本稿では,協調的なタスク割り当て問題に対する2つのコミュニケーション戦略を提案し,比較する。
我々の実験によると、創発的コミュニケーションは単純な設定で実現可能であるが、設計された世界モデルベースのアプローチは、複雑さが増大するにつれて、優れたパフォーマンス、サンプル効率、スケーラビリティを示す。
論文 参考訳(メタデータ) (2025-08-04T21:29:07Z) - COMBO: Compositional World Models for Embodied Multi-Agent Cooperation [65.46592503910875]
分散エージェントは,世界のエゴセントリックな視点のみを前提として協力しなくてはならない,多エージェント連携の具体化の問題について検討する。
複数のエージェントの自然な構成可能な共同動作を分解することにより、マルチエージェント協調のための構成的世界モデルを学ぶ。
提案手法を2-4エージェントを用いた3つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2024-04-16T17:59:11Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - Interpretation of Emergent Communication in Heterogeneous Collaborative
Embodied Agents [83.52684405389445]
本稿では,コラボレーティブな多目的ナビゲーションタスクCoMONを紹介する。
この課題において、オラクルエージェントは、地図の形式で詳細な環境情報を有する。
視覚的に環境を知覚するナビゲーターエージェントと通信し、目標のシーケンスを見つけるのが任務である。
創発的コミュニケーションはエージェントの観察と3次元環境の空間構造に基礎を置くことができることを示す。
論文 参考訳(メタデータ) (2021-10-12T06:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。