論文の概要: A Model-Based Solution to the Offline Multi-Agent Reinforcement Learning
Coordination Problem
- arxiv url: http://arxiv.org/abs/2305.17198v1
- Date: Fri, 26 May 2023 18:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 21:21:53.345964
- Title: A Model-Based Solution to the Offline Multi-Agent Reinforcement Learning
Coordination Problem
- Title(参考訳): オフラインマルチエージェント強化学習コーディネーション問題に対するモデルに基づく解法
- Authors: Paul Barde, Jakob Foerster, Derek Nowrouzezahrai, Amy Zhang
- Abstract要約: 既存のMARL(Multi-Agent Reinforcement Learning)メソッドはオンラインであり、現実のアプリケーションでは実用的ではない。
本稿では,合成相互作用データを生成し,エージェントが戦略に収束することを可能にするモデルに基づく手法を提案する。
MOMA-PPO (Model-based Offline Multi-Agent Proximal Policy Optimization) は、オフラインマルチエージェントの MuJoCo タスクに挑戦する上で、一般的な学習方法よりも優れています。
- 参考スコア(独自算出の注目度): 22.87517375140795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training multiple agents to coordinate is an important problem with
applications in robotics, game theory, economics, and social sciences. However,
most existing Multi-Agent Reinforcement Learning (MARL) methods are online and
thus impractical for real-world applications in which collecting new
interactions is costly or dangerous. While these algorithms should leverage
offline data when available, doing so gives rise to the offline coordination
problem. Specifically, we identify and formalize the strategy agreement (SA)
and the strategy fine-tuning (SFT) challenges, two coordination issues at which
current offline MARL algorithms fail. To address this setback, we propose a
simple model-based approach that generates synthetic interaction data and
enables agents to converge on a strategy while fine-tuning their policies
accordingly. Our resulting method, Model-based Offline Multi-Agent Proximal
Policy Optimization (MOMA-PPO), outperforms the prevalent learning methods in
challenging offline multi-agent MuJoCo tasks even under severe partial
observability and with learned world models.
- Abstract(参考訳): 複数のエージェントを協調させる訓練は、ロボット工学、ゲーム理論、経済学、社会科学の応用において重要な問題である。
しかしながら、既存のマルチエージェント強化学習(marl)手法のほとんどはオンラインであり、新しいインタラクションの収集がコストか危険である現実のアプリケーションでは実用的ではない。
これらのアルゴリズムは利用可能であればオフラインデータを活用するべきであるが、オフライン調整の問題が発生する。
具体的には、現在のオフラインMARLアルゴリズムが失敗する2つの調整問題である戦略合意(SA)と戦略微調整(SFT)課題を特定し、形式化する。
そこで本研究では,合成インタラクションデータを生成し,エージェントがポリシーを微調整しながら戦略に収束できるシンプルなモデルベースアプローチを提案する。
提案手法であるモデルベースオフラインマルチエージェント近距離ポリシー最適化(moma-ppo)は,厳格な部分的可観測性や学習世界モデルにおいてもオフラインマルチエージェントムジョコタスクに挑戦する上で,一般的な学習手法を上回っている。
関連論文リスト
- Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - Coordination Failure in Cooperative Offline MARL [3.623224034411137]
オフラインデータを用いた多エージェント政策勾配における協調的障害と協調行動の役割について検討する。
解析ツールとして2プレイヤーゲームを用いることで、BRUDアルゴリズムの単純な失敗モードを実演する。
本稿では,共同動作の類似性に基づくデータセットからのサンプルの優先順位付けにより,そのような障害を緩和する手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T14:51:29Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。