論文の概要: A Game-Theoretic Perspective of Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.03650v1
- Date: Sun, 7 Aug 2022 06:17:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 14:18:39.805676
- Title: A Game-Theoretic Perspective of Generalization in Reinforcement Learning
- Title(参考訳): 強化学習における一般化のゲーム理論的視点
- Authors: Chang Yang, Ruiyu Wang, Xinrun Wang, Zhen Wang
- Abstract要約: 強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。
強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
- 参考スコア(独自算出の注目度): 9.402272029807316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization in reinforcement learning (RL) is of importance for real
deployment of RL algorithms. Various schemes are proposed to address the
generalization issues, including transfer learning, multi-task learning and
meta learning, as well as the robust and adversarial reinforcement learning.
However, there is not a unified formulation of the various schemes, as well as
the comprehensive comparisons of methods across different schemes. In this
work, we propose a game-theoretic framework for the generalization in
reinforcement learning, named GiRL, where an RL agent is trained against an
adversary over a set of tasks, where the adversary can manipulate the
distributions over tasks within a given threshold. With different
configurations, GiRL can reduce the various schemes mentioned above. To solve
GiRL, we adapt the widely-used method in game theory, policy space response
oracle (PSRO) with the following three important modifications: i) we use
model-agnostic meta learning (MAML) as the best-response oracle, ii) we propose
a modified projected replicated dynamics, i.e., R-PRD, which ensures the
computed meta-strategy of the adversary fall in the threshold, and iii) we also
propose a protocol for the few-shot learning of the multiple strategies during
testing. Extensive experiments on MuJoCo environments demonstrate that our
proposed methods can outperform existing baselines, e.g., MAML.
- Abstract(参考訳): 強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。
伝達学習,マルチタスク学習,メタ学習,強靭で対向的な強化学習など,一般化問題に対処するための様々なスキームが提案されている。
しかし、様々なスキームの統一的な定式化や、異なるスキーム間のメソッドの包括的比較は存在していない。
本研究では,強化学習の一般化のためのゲーム理論フレームワークであるgirlを提案する。そこではrlエージェントが,与えられたしきい値内でタスク上の分布を操作できるタスクセット上の敵に対して訓練される。
異なる構成で、GiRLは上記の様々なスキームを削減できる。
GiRLを解くために、ゲーム理論、ポリシー空間応答オラクル(PSRO)において、以下の3つの重要な修正を加えて広く使われている手法を適用した。
一 モデル非依存メタラーニング(MAML)を最良応答オラクルとして使用すること。
二 逆転の計算メタストラテジーをしきい値内に確保する改良された複製力学、すなわちR-PRDを提案すること。
iii) テスト中の複数戦略の短時間学習のためのプロトコルも提案する。
MuJoCo環境に対する大規模な実験は,提案手法が既存のベースライン,例えばMAMLより優れていることを示す。
関連論文リスト
- AMAGO-2: Breaking the Multi-Task Barrier in Meta-Reinforcement Learning with Transformers [28.927809804613215]
我々はTransformerベースの(コンテキスト内での)メタRLの最近の進歩の上に構築する。
エージェントのアクターと批評家の目的の両方を分類項に変換する、単純でスケーラブルなソリューションを評価する。
この設計は、明示的なタスクラベルを使わずに、オンラインマルチタスク適応とメモリ問題に大きな進歩をもたらす。
論文 参考訳(メタデータ) (2024-11-17T22:25:40Z) - Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Learning Meta Representations for Agents in Multi-Agent Reinforcement
Learning [12.170248966278281]
多エージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント番号に制限される。
本研究は,人口変動型MGを対象とするエージェントの創出に焦点をあてる。
一元的なポリシーを学ぶ代わりに、各エージェントは、様々なゲームにまたがる効果的な戦略を構成するポリシーセットを学ぶ。
論文 参考訳(メタデータ) (2021-08-30T04:30:53Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。