論文の概要: Train Hard, Fight Easy: Robust Meta Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.11147v2
- Date: Sun, 1 Oct 2023 17:13:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 20:27:26.721368
- Title: Train Hard, Fight Easy: Robust Meta Reinforcement Learning
- Title(参考訳): トレーニングし、簡単に戦う - 堅牢なメタ強化学習
- Authors: Ido Greenberg, Shie Mannor, Gal Chechik, Eli Meirom
- Abstract要約: 実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
- 参考スコア(独自算出の注目度): 78.16589993684698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major challenge of reinforcement learning (RL) in real-world applications
is the variation between environments, tasks or clients. Meta-RL (MRL)
addresses this issue by learning a meta-policy that adapts to new tasks.
Standard MRL methods optimize the average return over tasks, but often suffer
from poor results in tasks of high risk or difficulty. This limits system
reliability since test tasks are not known in advance. In this work, we define
a robust MRL objective with a controlled robustness level. Optimization of
analogous robust objectives in RL is known to lead to both *biased gradients*
and *data inefficiency*. We prove that the gradient bias disappears in our
proposed MRL framework. The data inefficiency is addressed via the novel Robust
Meta RL algorithm (RoML). RoML is a meta-algorithm that generates a robust
version of any given MRL algorithm, by identifying and over-sampling harder
tasks throughout training. We demonstrate that RoML achieves robust returns on
multiple navigation and continuous control benchmarks.
- Abstract(参考訳): 実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
Meta-RL(MRL)は新しいタスクに適応するメタ政治を学ぶことでこの問題に対処する。
標準的なmrl法は平均的なタスクのリターンを最適化するが、リスクや難易度の高いタスクの成績が悪いことが多い。
テストタスクが事前に分かっていないため、システムの信頼性は制限される。
本研究では,ロバスト性レベルを制御したロバストMRL目標を定義する。
RL における類似の頑健な目的の最適化は、*バイアス付き勾配* と *データ非効率* の両方をもたらすことが知られている。
MRLフレームワークでは勾配バイアスが消失することが証明された。
データ非効率性はロバストメタRLアルゴリズム(RoML)によって対処される。
RoMLはメタアルゴリズムであり、トレーニングを通じて難しいタスクを特定し、オーバーサンプリングすることで、任意のMRLアルゴリズムの堅牢なバージョンを生成する。
複数のナビゲーションと連続制御ベンチマークでロMLが堅牢なリターンを達成することを示す。
関連論文リスト
- An Off-Policy Reinforcement Learning Algorithm Customized for Multi-Task Fusion in Large-Scale Recommender Systems [19.443149691831856]
Multi-Task Fusion (MTF) は、Multi-Task Learning (MTL) が出力する複数のスコアを最終スコアに組み合わせ、ユーザの満足度を最大化する。
近年,レコメンデーションセッションにおける長期ユーザ満足度を最適化するために,業界におけるMDFには強化学習(Reinforcement Learning, RL)が用いられている。
本稿では,大規模RSにおいてMSF用にカスタマイズされたIntegratedRL-MTFを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:43:03Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Curriculum in Gradient-Based Meta-Reinforcement Learning [10.447238563837173]
勾配に基づくメタラーナーはタスク分布に敏感であることを示す。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を被る。
論文 参考訳(メタデータ) (2020-02-19T01:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。