論文の概要: Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation
- arxiv url: http://arxiv.org/abs/2211.10861v1
- Date: Sun, 20 Nov 2022 03:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:19:40.670206
- Title: Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation
- Title(参考訳): 推論に基づく高速適応のための効果的なメタ強化学習
- Authors: Zhizhou Ren, Anji Liu, Yitao Liang, Jian Peng, Jianzhu Ma
- Abstract要約: 本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 17.165083095799712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning new task-specific skills from a few trials is a fundamental
challenge for artificial intelligence. Meta reinforcement learning (meta-RL)
tackles this problem by learning transferable policies that support few-shot
adaptation to unseen tasks. Despite recent advances in meta-RL, most existing
methods require the access to the environmental reward function of new tasks to
infer the task objective, which is not realistic in many practical
applications. To bridge this gap, we study the problem of few-shot adaptation
in the context of human-in-the-loop reinforcement learning. We develop a
meta-RL algorithm that enables fast policy adaptation with preference-based
feedback. The agent can adapt to new tasks by querying human's preference
between behavior trajectories instead of using per-step numeric rewards. By
extending techniques from information theory, our approach can design query
sequences to maximize the information gain from human interactions while
tolerating the inherent error of non-expert human oracle. In experiments, we
extensively evaluate our method, Adaptation with Noisy OracLE (ANOLE), on a
variety of meta-RL benchmark tasks and demonstrate substantial improvement over
baseline algorithms in terms of both feedback efficiency and error tolerance.
- Abstract(参考訳): 数回の試行から新しいタスク固有のスキルを学ぶことは、人工知能にとって基本的な課題である。
メタ強化学習(Meta-RL)は、未知のタスクへの少数ショット適応をサポートするトランスファー可能なポリシーを学習することでこの問題に対処する。
近年のメタRLの進歩にもかかわらず、既存の手法の多くはタスクの目的を推測するために新しいタスクの環境報酬関数へのアクセスを必要とする。
このギャップを埋めるために,人間による強化学習の文脈において,少数ショット適応の問題について検討する。
選好に基づくフィードバックによるポリシー適応を高速に行うメタrlアルゴリズムを開発した。
エージェントは、ステップごとの数値報酬を使わずに、人間の行動軌跡間の嗜好をクエリすることで、新しいタスクに適応することができる。
提案手法は,情報理論から技術を拡張することで,人間同士の相互作用から得られる情報量の最大化を図り,非専門家のオラクル固有の誤りを許容する。
実験では, 様々なメタRLベンチマークタスクにおいて, ノイズOracleを用いた適応法(ANOLE)を広範囲に評価し, フィードバック効率とエラー耐性の両方の観点から, ベースラインアルゴリズムよりも大幅に改善したことを示す。
関連論文リスト
- Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。