論文の概要: Distributionally Adaptive Meta Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.03104v2
- Date: Mon, 10 Jul 2023 06:32:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 20:25:59.526876
- Title: Distributionally Adaptive Meta Reinforcement Learning
- Title(参考訳): 分布適応型メタ強化学習
- Authors: Anurag Ajay, Abhishek Gupta, Dibya Ghosh, Sergey Levine, Pulkit
Agrawal
- Abstract要約: テスト時間分布シフトの下で適切に振る舞うメタRLアルゴリズムのフレームワークを開発する。
我々の枠組みは、分布のロバスト性に対する適応的なアプローチを中心とし、様々なレベルの分布シフトに対してロバストであるようメタポリスの人口を訓練する。
本研究は, 分散シフト下での後悔を改善するための枠組みを示し, シミュレーションロボティクス問題に対する効果を実証的に示す。
- 参考スコア(独自算出の注目度): 85.17284589483536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-reinforcement learning algorithms provide a data-driven way to acquire
policies that quickly adapt to many tasks with varying rewards or dynamics
functions. However, learned meta-policies are often effective only on the exact
task distribution on which they were trained and struggle in the presence of
distribution shift of test-time rewards or transition dynamics. In this work,
we develop a framework for meta-RL algorithms that are able to behave
appropriately under test-time distribution shifts in the space of tasks. Our
framework centers on an adaptive approach to distributional robustness that
trains a population of meta-policies to be robust to varying levels of
distribution shift. When evaluated on a potentially shifted test-time
distribution of tasks, this allows us to choose the meta-policy with the most
appropriate level of robustness, and use it to perform fast adaptation. We
formally show how our framework allows for improved regret under distribution
shift, and empirically show its efficacy on simulated robotics problems under a
wide range of distribution shifts.
- Abstract(参考訳): メタ強化学習アルゴリズムは、様々な報酬やダイナミクス機能を備えた多くのタスクに迅速に適応するポリシーを取得するためのデータ駆動の方法を提供する。
しかし、学習されたメタポリケーションは、トレーニングされたタスクの正確な分布にのみ有効であり、テストタイム報酬の分散シフトや移行ダイナミクスの存在に苦慮することが多い。
本研究では,タスク空間におけるテスト時間分布シフトの下で適切に動作可能なメタRLアルゴリズムのフレームワークを開発する。
我々の枠組みは分布のロバスト性への適応的アプローチに焦点をあて、様々なレベルの分布シフトにロバストなメタポリティシーの集団を訓練する。
タスクの潜在的にシフトしたテスト時間分布で評価すると、最も適切なレベルのロバスト性を持つメタポリシーを選択し、それを高速適応に使用できます。
我々は,分散シフト下での後悔を改善するための枠組みを正式に示し,幅広い分散シフト下でのシミュレーションロボット問題に対するその効果を実証的に示す。
関連論文リスト
- Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - MetaModulation: Learning Variational Feature Hierarchies for Few-Shot
Learning with Fewer Tasks [63.016244188951696]
本稿では,タスクを減らした少数ショット学習手法を提案する。
メタトレーニングタスクを増やすために、さまざまなバッチレベルでパラメータを変更します。
また,変分法を取り入れた学習的変分特徴階層も導入する。
論文 参考訳(メタデータ) (2023-05-17T15:47:47Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Algorithm Design for Online Meta-Learning with Task Boundary Detection [63.284263611646]
非定常環境におけるタスクに依存しないオンラインメタ学習のための新しいアルゴリズムを提案する。
まず,タスクスイッチと分散シフトの簡易かつ効果的な2つの検出機構を提案する。
軽度条件下では,線形タスク平均的後悔がアルゴリズムに対して達成可能であることを示す。
論文 参考訳(メタデータ) (2023-02-02T04:02:49Z) - Meta Learning on a Sequence of Imbalanced Domains with Difficulty
Awareness [6.648670454325191]
現在のメタ学習アルゴリズムにまたがる典型的な設定は、メタトレーニング中に定常的なタスク分布を仮定する。
タスク分散とドメインラベルが本質的に利用できないような現実的なシナリオを考察する。
本稿では,ドメイン変更検出のためのカーネルベースの手法と,メモリ管理の難易度を考慮した機構を提案する。
論文 参考訳(メタデータ) (2021-09-29T00:53:09Z) - Variational Beam Search for Learning with Distribution Shifts [26.345665980534374]
i)最小限の連続観測に基づく微妙な分布シフトの推論が可能であり、(ii)それに応じてモデルをオンライン方式で適応できるベイズ式メタアルゴリズムを提案する。
私たちの提案するアプローチはモデルに依存しず、教師なしと教師なしの両方の学習に適用可能であり、最先端のベイズオンライン学習アプローチよりも大幅に改善されます。
論文 参考訳(メタデータ) (2020-12-15T05:28:47Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Curriculum in Gradient-Based Meta-Reinforcement Learning [10.447238563837173]
勾配に基づくメタラーナーはタスク分布に敏感であることを示す。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を被る。
論文 参考訳(メタデータ) (2020-02-19T01:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。