論文の概要: Scalable Offline Reinforcement Learning for Mean Field Games
- arxiv url: http://arxiv.org/abs/2410.17898v1
- Date: Wed, 23 Oct 2024 14:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:54:40.008834
- Title: Scalable Offline Reinforcement Learning for Mean Field Games
- Title(参考訳): 平均フィールドゲームのためのスケーラブルなオフライン強化学習
- Authors: Axel Brunnbauer, Julian Lemmel, Zahra Babaiee, Sophie Neubauer, Radu Grosu,
- Abstract要約: Off-MMDは、純粋なオフラインデータを用いて平均フィールドゲームにおける平衡ポリシーを近似する新しい平均フィールドRLアルゴリズムである。
我々のアルゴリズムは複雑な環境にスケールし、群衆探索やナビゲーションといったベンチマークタスクで強いパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 6.8267158622784745
- License:
- Abstract: Reinforcement learning algorithms for mean-field games offer a scalable framework for optimizing policies in large populations of interacting agents. Existing methods often depend on online interactions or access to system dynamics, limiting their practicality in real-world scenarios where such interactions are infeasible or difficult to model. In this paper, we present Offline Munchausen Mirror Descent (Off-MMD), a novel mean-field RL algorithm that approximates equilibrium policies in mean-field games using purely offline data. By leveraging iterative mirror descent and importance sampling techniques, Off-MMD estimates the mean-field distribution from static datasets without relying on simulation or environment dynamics. Additionally, we incorporate techniques from offline reinforcement learning to address common issues like Q-value overestimation, ensuring robust policy learning even with limited data coverage. Our algorithm scales to complex environments and demonstrates strong performance on benchmark tasks like crowd exploration or navigation, highlighting its applicability to real-world multi-agent systems where online experimentation is infeasible. We empirically demonstrate the robustness of Off-MMD to low-quality datasets and conduct experiments to investigate its sensitivity to hyperparameter choices.
- Abstract(参考訳): 平均場ゲームのための強化学習アルゴリズムは、対話エージェントの多数でポリシーを最適化するためのスケーラブルなフレームワークを提供する。
既存の手法は、しばしばオンラインインタラクションやシステムダイナミクスへのアクセスに依存し、そのようなインタラクションが実現不可能またはモデル化が難しい現実のシナリオにおいて、それらの実用性を制限する。
本稿では,Off-MMD(Offline Munchausen Mirror Descent)を提案する。Off-MMD(Offline Munchausen Mirror Descent, Off-MMD)は,純粋なオフラインデータを用いて,平均フィールドゲームにおける平衡ポリシを近似する新しい平均フィールドRLアルゴリズムである。
Off-MMDは、反復ミラー降下と重要サンプリング技術を活用することにより、シミュレーションや環境力学に頼ることなく、静的データセットから平均フィールド分布を推定する。
さらに、オフライン強化学習の手法を取り入れて、Q値過大評価のような一般的な問題に対処し、限られたデータカバレッジでもロバストなポリシー学習を確保する。
我々のアルゴリズムは複雑な環境にスケールし、クラウド探索やナビゲーションといったベンチマークタスクにおいて強力なパフォーマンスを示し、オンライン実験が不可能な実世界のマルチエージェントシステムへの適用性を強調します。
我々は、オフMMDの低品質データセットに対する堅牢性を実証的に実証し、ハイパーパラメータ選択に対する感度を調べる実験を行った。
関連論文リスト
- COSBO: Conservative Offline Simulation-Based Policy Optimization [7.696359453385686]
オフライン強化学習は、ライブデプロイメントのデータに関する強化学習モデルのトレーニングを可能にする。
対照的に、ライブ環境を再現しようとするシミュレーション環境は、ライブデータの代わりに利用できる。
本研究では,不完全なシミュレーション環境と対象環境のデータを組み合わせることで,オフラインの強化学習ポリシーを訓練する手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T12:20:55Z) - Coordination Failure in Cooperative Offline MARL [3.623224034411137]
オフラインデータを用いた多エージェント政策勾配における協調的障害と協調行動の役割について検討する。
解析ツールとして2プレイヤーゲームを用いることで、BRUDアルゴリズムの単純な失敗モードを実演する。
本稿では,共同動作の類似性に基づくデータセットからのサンプルの優先順位付けにより,そのような障害を緩和する手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T14:51:29Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Offline Equilibrium Finding [40.08360411502593]
オフラインRLをマルチエージェントまたはマルチプレイヤーゲーム設定に一般化することを目指している。
この領域では、標準化されたデータセットと意味のあるベンチマークの欠如によって、進捗が妨げられているため、非常に少ない研究がなされている。
OEF-PSROとOEF-CFRの2つのモデルベースアルゴリズムは、オフライン学習の文脈で広く使われている平衡探索アルゴリズムDeep CFRとPSROの適応である。
論文 参考訳(メタデータ) (2022-07-12T03:41:06Z) - Koopman Q-learning: Offline Reinforcement Learning via Symmetries of
Dynamics [29.219095364935885]
オフライン強化学習は、大規模なデータセットを活用して、環境とのインタラクションなしにポリシーをトレーニングする。
現在のアルゴリズムは、トレーニングデータセットに過度に適合し、環境のアウト・オブ・ディストリビューションの一般化にデプロイすると、パフォーマンスが悪くなります。
我々は、システムの基盤となる力学の対称性を推測できるクープマン潜在表現を学習する。
我々は,D4RL,Metaworld,Robosuiteなどのオフライン強化学習タスクとデータセットをベンチマークで評価した。
論文 参考訳(メタデータ) (2021-11-02T04:32:18Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。