論文の概要: Maximum Entropy Inverse Reinforcement Learning for Mean Field Games
- arxiv url: http://arxiv.org/abs/2104.14654v1
- Date: Thu, 29 Apr 2021 21:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:35:33.529095
- Title: Maximum Entropy Inverse Reinforcement Learning for Mean Field Games
- Title(参考訳): 平均場ゲームにおける最大エントロピー逆強化学習
- Authors: Yang Chen, Jiamou Liu and Bakhadyr Khoussainov
- Abstract要約: 平均場ゲーム(mfg)は、大規模マルチエージェントシステムにおける難解な強化学習(rl)を促進する。
MFG のための新しい IRL フレームワークである平均場逆強化学習 (MFIRL) を提案する。
我々は、エントロピー正規化と最大エントロピー irl フレームワークを組み込んだ新しい平衡概念に基づいてアルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 8.458799068615095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean field games (MFG) facilitate the otherwise intractable reinforcement
learning (RL) in large-scale multi-agent systems (MAS), through reducing
interplays among agents to those between a representative individual agent and
the mass of the population. While, RL agents are notoriously prone to
unexpected behaviours due to reward mis-specification. This problem is
exacerbated by an expanding scale of MAS. Inverse reinforcement learning (IRL)
provides a framework to automatically acquire proper reward functions from
expert demonstrations. Extending IRL to MFG, however, is challenging due to the
complex notion of mean-field-type equilibria and the coupling between
agent-level and population-level dynamics. To this end, we propose mean field
inverse reinforcement learning (MFIRL), a novel model-free IRL framework for
MFG. We derive the algorithm based on a new equilibrium concept that
incorporates entropy regularization, and the maximum entropy IRL framework.
Experimental results on simulated environments demonstrate that MFIRL is sample
efficient and can accurately recover the ground-truth reward functions,
compared to the state-of-the-art method.
- Abstract(参考訳): 平均場ゲーム (MFG) は, 大規模マルチエージェントシステム (MAS) において, 個々のエージェントと人口の集団との間のエージェント間の相互作用を減らし, 難易度の高い強化学習 (RL) を促進する。
一方、RLエージェントは報酬のミス特定のために予期せぬ行動を起こすことが知られている。
この問題は、拡大するMASによって悪化する。
逆強化学習(IRL)は、専門家によるデモンストレーションから適切な報酬関数を自動的に取得するフレームワークを提供する。
しかし、IRLをMFGに拡張することは、平均場型平衡の複雑な概念とエージェントレベルと集団レベルのダイナミクスの結合により困難である。
そこで本研究では,MFGのための新しいモデルフリーIRLフレームワークである平均場逆強化学習(MFIRL)を提案する。
我々は、エントロピー正規化と最大エントロピー irl フレームワークを組み込んだ新しい平衡概念に基づいてアルゴリズムを導出する。
シミュレーション環境における実験結果から,MFIRLは試料効率が良く,基礎構造報酬関数を精度良く回収できることが示された。
関連論文リスト
- FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。
本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:57:45Z) - Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文 参考訳(メタデータ) (2024-05-05T16:38:04Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Individual-Level Inverse Reinforcement Learning for Mean Field Games [16.79251229846642]
Mean Field IRL (MFIRL) は、MFGのための最初の専用のIRLフレームワークであり、協調環境と非協調環境の両方を扱うことができる。
未知のダイナミクスを持つMFGに対して有効な実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-13T20:35:01Z) - Multi-Agent Inverse Reinforcement Learning: Suboptimal Demonstrations
and Alternative Solution Concepts [0.0]
マルチエージェント逆強化学習は、社会的環境におけるエージェントから報酬関数を学習するために用いられる。
現実的な社会的ダイナミクスをモデル化するには、MIRL法は最適な人間の推論と振る舞いを考慮しなければならない。
論文 参考訳(メタデータ) (2021-09-02T19:15:29Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。