論文の概要: A Model-Based Solution to the Offline Multi-Agent Reinforcement Learning
Coordination Problem
- arxiv url: http://arxiv.org/abs/2305.17198v2
- Date: Thu, 18 Jan 2024 16:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 20:47:06.704676
- Title: A Model-Based Solution to the Offline Multi-Agent Reinforcement Learning
Coordination Problem
- Title(参考訳): オフラインマルチエージェント強化学習コーディネーション問題に対するモデルに基づく解法
- Authors: Paul Barde, Jakob Foerster, Derek Nowrouzezahrai, Amy Zhang
- Abstract要約: 既存のMARL(Multi-Agent Reinforcement Learning)手法はオンラインであり,新たなインタラクションの収集に費用がかかる,あるいは危険である実世界のアプリケーションには実用的ではない。
戦略合意(SA)と戦略細調整(SFT)の調整課題を特定し,定式化する。
MOMA-PPO (Model-based Offline Multi-Agent Proximal Policy Optimization) は,合成相互作用データを生成し,エージェントがポリシーを微調整しながら戦略に収束することを可能にするアルゴリズムである。
- 参考スコア(独自算出の注目度): 22.385585755496116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training multiple agents to coordinate is an essential problem with
applications in robotics, game theory, economics, and social sciences. However,
most existing Multi-Agent Reinforcement Learning (MARL) methods are online and
thus impractical for real-world applications in which collecting new
interactions is costly or dangerous. While these algorithms should leverage
offline data when available, doing so gives rise to what we call the offline
coordination problem. Specifically, we identify and formalize the strategy
agreement (SA) and the strategy fine-tuning (SFT) coordination challenges, two
issues at which current offline MARL algorithms fail. Concretely, we reveal
that the prevalent model-free methods are severely deficient and cannot handle
coordination-intensive offline multi-agent tasks in either toy or MuJoCo
domains. To address this setback, we emphasize the importance of inter-agent
interactions and propose the very first model-based offline MARL method. Our
resulting algorithm, Model-based Offline Multi-Agent Proximal Policy
Optimization (MOMA-PPO) generates synthetic interaction data and enables agents
to converge on a strategy while fine-tuning their policies accordingly. This
simple model-based solution solves the coordination-intensive offline tasks,
significantly outperforming the prevalent model-free methods even under severe
partial observability and with learned world models.
- Abstract(参考訳): 複数のエージェントを協調させる訓練は、ロボット工学、ゲーム理論、経済学、社会科学の応用において重要な問題である。
しかしながら、既存のマルチエージェント強化学習(marl)手法のほとんどはオンラインであり、新しいインタラクションの収集がコストか危険である現実のアプリケーションでは実用的ではない。
これらのアルゴリズムは、利用可能であればオフラインデータを活用するべきだが、そうすることで、オフラインコーディネーション問題と呼ばれる問題が発生する。
具体的には、現在のオフラインMARLアルゴリズムが失敗する2つの問題である戦略合意(SA)と戦略微調整(SFT)調整課題を特定し、形式化する。
具体的には,一般的なモデルフリー手法では,玩具やMuJoCoドメインにおいて,協調集約型オフラインマルチエージェントタスクを処理できないことを明らかにする。
この問題を解決するために,エージェント間相互作用の重要性を強調し,モデルベースオフラインMARL法を提案する。
その結果,モデルベースオフライン・マルチエージェント・ポリシ最適化(moma-ppo)が合成インタラクションデータを生成し,エージェントがポリシーを微調整しながら戦略に収束することを可能にした。
この単純なモデルベースのソリューションは、コーディネーション集約的なオフラインタスクを解決し、厳しい部分的可観測性と学習された世界モデルの下でも、一般的なモデルフリーメソッドを著しく上回っている。
関連論文リスト
- Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - Coordination Failure in Cooperative Offline MARL [3.623224034411137]
オフラインデータを用いた多エージェント政策勾配における協調的障害と協調行動の役割について検討する。
解析ツールとして2プレイヤーゲームを用いることで、BRUDアルゴリズムの単純な失敗モードを実演する。
本稿では,共同動作の類似性に基づくデータセットからのサンプルの優先順位付けにより,そのような障害を緩和する手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T14:51:29Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。