論文の概要: Communicating Plans, Not Percepts: Scalable Multi-Agent Coordination with Embodied World Models
- arxiv url: http://arxiv.org/abs/2508.02912v2
- Date: Mon, 29 Sep 2025 15:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.14019
- Title: Communicating Plans, Not Percepts: Scalable Multi-Agent Coordination with Embodied World Models
- Title(参考訳): 包括的世界モデルを用いたスケーラブルなマルチエージェントコーディネート
- Authors: Brennen A. Hill, Mant Koh En Wei, Thangavel Jishnuanandh,
- Abstract要約: MARL(Multi-Agent Reinforcement Learning)の中心的な疑問は、通信プロトコルを設計するか、エンドツーエンドで学習するかである。
本稿では,協調的なタスク割り当て問題に対する2つのコミュニケーション戦略を提案し,比較する。
我々の実験によると、創発的コミュニケーションは単純な設定で実現可能であるが、設計された世界モデルベースのアプローチは、複雑さが増大するにつれて、優れたパフォーマンス、サンプル効率、スケーラビリティを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust coordination is critical for effective decision-making in multi-agent systems, especially under partial observability. A central question in Multi-Agent Reinforcement Learning (MARL) is whether to engineer communication protocols or learn them end-to-end. We investigate this dichotomy using embodied world models. We propose and compare two communication strategies for a cooperative task-allocation problem. The first, Learned Direct Communication (LDC), learns a protocol end-to-end, with agents generating messages and actions concurrently. The second, Intention Communication, uses an engineered inductive bias: a compact, learned world model, the Imagined Trajectory Generation Module (ITGM), to simulate future states. Agents then communicate a summary of this plan. We evaluate these approaches on goal-directed interaction in a grid world, a canonical abstraction for embodied AI problems. Our experiments reveal that while emergent communication is viable in simple settings, the engineered, world model-based approach shows superior performance, sample efficiency, and scalability as complexity increases. These findings advocate for integrating structured, predictive models into MARL agents to enable active, goal-driven coordination.
- Abstract(参考訳): ロバスト調整は、特に部分可観測性の下で、マルチエージェントシステムにおける効果的な意思決定に重要である。
MARL(Multi-Agent Reinforcement Learning)の中心的な疑問は、通信プロトコルを設計するか、エンドツーエンドで学習するかである。
本研究では,この二分法を具現化した世界モデルを用いて検討する。
本稿では,協調的なタスク割り当て問題に対する2つのコミュニケーション戦略を提案し,比較する。
最初のLearned Direct Communication (LDC)は、エージェントがメッセージとアクションを同時に生成するプロトコルをエンドツーエンドで学習する。
第二に、意図的コミュニケーション(Intention Communication)は、工学的な帰納的バイアス(deductive bias)を使用する: コンパクトで学習された世界モデル、Imagined Trajectory Generation Module(ITGM)を使用して、将来の状態をシミュレートする。
エージェントはこの計画の概要を伝える。
我々は,AI問題に対する標準的な抽象概念であるグリッド世界における目標指向インタラクションに対するこれらのアプローチを評価する。
我々の実験によると、創発的コミュニケーションは単純な設定で実現可能であるが、設計された世界モデルベースのアプローチは、複雑さが増大するにつれて、優れたパフォーマンス、サンプル効率、スケーラビリティを示す。
これらの知見は、構造化された予測モデルをMARLエージェントに統合し、アクティブでゴール駆動的な協調を可能にすることを提唱している。
関連論文リスト
- Exponential Topology-enabled Scalable Communication in Multi-agent Reinforcement Learning [9.48183472865413]
協調型マルチエージェント強化学習(MARL)のためのスケーラブルな通信プロトコルを開発する。
本稿では,この指数的トポロジを利用して,その小径特性と小径特性を活用し,エージェント間の迅速な情報伝達を実現することを提案する。
MAgentやInfrastructure Management Planningといった大規模協調型ベンチマークの実験は、ExpoCommの優れた性能と堅牢なゼロショット転送性を示している。
論文 参考訳(メタデータ) (2025-02-27T03:15:31Z) - Token Communications: A Large Model-Driven Framework for Cross-modal Context-aware Semantic Communications [78.80966346820553]
我々は、生成意味コミュニケーション(GenSC)において、クロスモーダルなコンテキスト情報を活用するための大規模なモデル駆動フレームワークであるトークン通信(TokCom)を紹介する。
本稿では,GFM/MLLMをベースとしたトークン処理をセマンティック通信システムに組み込む方法について検討し,将来無線ネットワークの様々な層において効率的なTokComを実現する上での鍵となる原則について述べる。
論文 参考訳(メタデータ) (2025-02-17T18:14:18Z) - Networked Agents in the Dark: Team Value Learning under Partial Observability [3.8779763612314633]
ネットワークエージェントのための協調型マルチエージェント強化学習(MARL)手法を提案する。
完全な状態情報や共同観測に依存する従来の手法とは対照的に、我々のエージェントは部分観測可能性の下で共有目的に到達する方法を学ぶ必要がある。
トレーニング中、個々の報酬を収集し、ローカルコミュニケーションを通じてチームの価値関数を近似し、協調行動をもたらす。
論文 参考訳(メタデータ) (2025-01-15T13:01:32Z) - Communication Learning in Multi-Agent Systems from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
本稿では,各エージェントに対して時間的ゲーティング機構を導入し,ある時間に共有情報を受信するかどうかの動的決定を可能にする。
論文 参考訳(メタデータ) (2024-11-01T05:56:51Z) - Learning Multi-Agent Communication from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
提案手法であるCommFormerは,通信グラフを効率よく最適化し,勾配降下によるアーキテクチャパラメータをエンドツーエンドで並列に洗練する。
論文 参考訳(メタデータ) (2024-05-14T12:40:25Z) - Generalising Multi-Agent Cooperation through Task-Agnostic Communication [7.380444448047908]
協調型マルチロボット問題におけるMARL(Multi-agent reinforcement learning)の既存のコミュニケーション手法はほとんどタスク固有であり、各タスクごとに新しいコミュニケーション戦略を訓練する。
与えられた環境内の任意のタスクに適用可能な通信戦略を導入することで、この非効率性に対処する。
我々の目的は、可変数のエージェント観測から固定サイズの潜在マルコフ状態を学ぶことである。
本手法は,コミュニケーション戦略を微調整することなく,新しいタスクへのシームレスな適応が可能であり,トレーニング中よりも多くのエージェントへのスケーリングを優雅にサポートし,環境におけるアウト・オブ・ディストリビューションイベントを検出する。
論文 参考訳(メタデータ) (2024-03-11T14:20:13Z) - Learning Multi-Agent Communication with Contrastive Learning [3.816854668079928]
本稿では,コミュニケーション的メッセージが環境状態の異なる不完全なビューと見なされる,別の視点を紹介する。
送信したメッセージと受信したメッセージの関係を調べることで,コントラスト学習を用いてコミュニケーションを学ぶことを提案する。
通信環境において,本手法は性能と学習速度の両面で,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-03T23:51:05Z) - Centralized Training with Hybrid Execution in Multi-Agent Reinforcement
Learning [7.163485179361718]
マルチエージェント強化学習(MARL)におけるハイブリッド実行の導入
MARLは、エージェントが任意の通信レベルを持つ協調タスクを実行時に完了させることを目標とする新しいパラダイムである。
我々は,自動回帰予測モデルを用いたMAROを集中的に訓練し,行方不明者の観察を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T14:58:32Z) - Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations [51.8796674904734]
事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。
エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
論文 参考訳(メタデータ) (2020-12-24T04:52:29Z) - Communication-Efficient and Distributed Learning Over Wireless Networks:
Principles and Applications [55.65768284748698]
機械学習(ML)は、第5世代(5G)通信システムなどのための有望なイネーブルである。
本稿では、関連するコミュニケーションとMLの原則を概観し、選択したユースケースでコミュニケーション効率と分散学習フレームワークを提示することを目的とする。
論文 参考訳(メタデータ) (2020-08-06T12:37:14Z) - Learning Structured Communication for Multi-agent Reinforcement Learning [104.64584573546524]
本研究では,マルチエージェント強化学習(MARL)環境下での大規模マルチエージェント通信機構について検討する。
本稿では、より柔軟で効率的な通信トポロジを用いて、LSC(Learning Structured Communication)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-11T07:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。