論文の概要: Efficient Generation of Diverse Cooperative Agents with World Models
- arxiv url: http://arxiv.org/abs/2506.07450v1
- Date: Mon, 09 Jun 2025 05:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.120686
- Title: Efficient Generation of Diverse Cooperative Agents with World Models
- Title(参考訳): 世界モデルを用いた多言語協調エージェントの効率的な生成
- Authors: Yi Loo, Akshunn Trivedi, Malika Meghjani,
- Abstract要約: Zero-Shot Coordination (ZSC)エージェントのトレーニングプロセスにおける大きなボトルネックは、コラボレーションの慣行において多様なパートナーエージェントの生成である。
人口発生のための現在のクロスプレイ最小化(XPM)手法は、計算コストが非常に高く、サンプル非効率である。
提案手法は,SP集団訓練報酬とZSCエージェントのトレーニングパートナーの両面で,従来手法と一致した多様なコンベンションのパートナを効果的に生成できることを示す。
- 参考スコア(独自算出の注目度): 2.029110166475336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major bottleneck in the training process for Zero-Shot Coordination (ZSC) agents is the generation of partner agents that are diverse in collaborative conventions. Current Cross-play Minimization (XPM) methods for population generation can be very computationally expensive and sample inefficient as the training objective requires sampling multiple types of trajectories. Each partner agent in the population is also trained from scratch, despite all of the partners in the population learning policies of the same coordination task. In this work, we propose that simulated trajectories from the dynamics model of an environment can drastically speed up the training process for XPM methods. We introduce XPM-WM, a framework for generating simulated trajectories for XPM via a learned World Model (WM). We show XPM with simulated trajectories removes the need to sample multiple trajectories. In addition, we show our proposed method can effectively generate partners with diverse conventions that match the performance of previous methods in terms of SP population training reward as well as training partners for ZSC agents. Our method is thus, significantly more sample efficient and scalable to a larger number of partners.
- Abstract(参考訳): Zero-Shot Coordination (ZSC)エージェントのトレーニングプロセスにおける大きなボトルネックは、コラボレーションの慣行において多様なパートナーエージェントの生成である。
現在の人口発生のためのクロスプレイ最小化法(XPM)は、訓練目的が複数の種類の軌道をサンプリングする必要があるため、非常に計算コストが高く、サンプル非効率である。
集団内の各パートナーエージェントは、同じ調整作業の集団学習政策におけるすべてのパートナーにもかかわらず、ゼロから訓練される。
本研究では,環境の力学モデルから得られたシミュレーション軌道が,XPM法の学習過程を大幅に高速化できることを示す。
本稿では,学習された世界モデル(WM)を用いて,XPMのシミュレーション軌道を生成するフレームワークであるXPM-WMを紹介する。
模擬トラジェクトリを用いたXPMでは,複数のトラジェクトリをサンプリングする必要がなくなる。
また,本提案手法は,SP集団訓練報酬とZSCエージェントのトレーニングパートナーの両面で,従来手法と一致した多様なコンベンションのパートナを効果的に生成できることを示す。
当社の手法は,多数のパートナに対して,はるかに効率が高く,スケーラブルである。
関連論文リスト
- Multi-Agent Sampling: Scaling Inference Compute for Data Synthesis with Tree Search-Based Agentic Collaboration [81.45763823762682]
本研究の目的は,マルチエージェントサンプリングによるデータ合成の問題を調べることでギャップを埋めることである。
逐次サンプリングプロセス中にワークフローが反復的に進化する木探索に基づくオーケストレーションエージェント(TOA)を紹介する。
アライメント、機械翻訳、数学的推論に関する実験は、マルチエージェントサンプリングが推論計算スケールとしてシングルエージェントサンプリングを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-12-22T15:16:44Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Learning to Cooperate with Humans using Generative Agents [40.605931138995714]
ゼロショットと人間を協調させる訓練エージェントは、マルチエージェント強化学習(MARL)における重要なミッションである
我々は,この課題に効果的に対処できる,人間のパートナーの生成モデルを示す。
潜在空間からサンプリングすることで、生成モデルを用いて異なるパートナーを生成し、協調エージェントを訓練することができる。
論文 参考訳(メタデータ) (2024-11-21T08:36:17Z) - Adaptive teachers for amortized samplers [76.88721198565861]
そこで,本研究では,初等無罪化標本作成者(学生)の指導を指導する適応的学習分布(教師)を提案する。
本研究では, この手法の有効性を, 探索課題の提示を目的とした合成環境において検証する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Communication-Efficient Training Workload Balancing for Decentralized Multi-Agent Learning [20.683081355473664]
分散マルチエージェント学習(DML)は、データのプライバシを保持しながら協調的なモデルトレーニングを可能にする。
ComDMLは分散アプローチを通じてエージェント間のワークロードのバランスをとる。
ComDMLは、最先端の手法と比較して、モデル精度を維持しながら、トレーニング全体の時間を著しく短縮することができる。
論文 参考訳(メタデータ) (2024-05-01T20:03:37Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。