論文の概要: Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.13515v1
- Date: Wed, 24 Feb 2021 16:51:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 14:07:52.407425
- Title: Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning
- Title(参考訳): 強化学習における伝達行動発見の原理としての被覆
- Authors: V\'ictor Campos, Pablo Sprechmann, Steven Hansen, Andre Barreto,
Steven Kapturowski, Alex Vitvitskyi, Adri\`a Puigdom\`enech Badia, Charles
Blundell
- Abstract要約: 私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
- 参考スコア(独自算出の注目度): 16.12658895065585
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Designing agents that acquire knowledge autonomously and use it to solve new
tasks efficiently is an important challenge in reinforcement learning, and
unsupervised learning provides a useful paradigm for autonomous acquisition of
task-agnostic knowledge. In supervised settings, representations discovered
through unsupervised pre-training offer important benefits when transferred to
downstream tasks. Given the nature of the reinforcement learning problem, we
argue that representation alone is not enough for efficient transfer in
challenging domains and explore how to transfer knowledge through behavior. The
behavior of pre-trained policies may be used for solving the task at hand
(exploitation), as well as for collecting useful data to solve the problem
(exploration). We argue that policies pre-trained to maximize coverage will
produce behavior that is useful for both strategies. When using these policies
for both exploitation and exploration, our agents discover better solutions.
The largest gains are generally observed in domains requiring structured
exploration, including settings where the behavior of the pre-trained policies
is misaligned with the downstream task.
- Abstract(参考訳): 知識を自律的に獲得し、新しいタスクを効率的に解決するためのエージェントを設計することは強化学習の重要な課題であり、教師なし学習はタスク非依存の知識を自律的に獲得するための有用なパラダイムを提供する。
教師なし設定では、教師なし事前トレーニングによって発見された表現は、下流タスクに転送するときに重要な利点を提供する。
強化学習問題の性質を考えると、表現だけでは挑戦的領域における効率的な伝達には不十分であり、行動を通じて知識を伝達する方法を探求する。
事前訓練されたポリシーの動作は、手作業のタスク(探索)の解決や、問題の解決(探索)に有用なデータ収集に利用することができる。
我々は、カバー範囲を最大化するために事前訓練されたポリシーは、両方の戦略に有用な行動をもたらすと論じている。
エクスプロイトと探索の両方にこれらのポリシーを使用する場合、エージェントはより良い解決策を発見する。
最大の利益は一般的に、事前訓練されたポリシーの振る舞いが下流のタスクとミスアライメントされるような設定を含む、構造化された探索を必要とするドメインで観察される。
関連論文リスト
- Introspective Action Advising for Interpretable Transfer Learning [7.673465837624365]
伝達学習は、目標タスクにおける政策の訓練を加速するために、深層強化学習に適用することができる。
本稿では,教師が目標課題における生徒の探索を積極的に指導する,行動アドバイスに基づく課題間での学習を伝達するための代替手法を提案する。
論文 参考訳(メタデータ) (2023-06-21T14:53:33Z) - Unsupervised Reinforcement Learning for Transferable Manipulation Skill
Discovery [22.32327908453603]
ロボット工学における現在の強化学習(RL)は、しばしば新しい下流タスクへの一般化の難しさを経験する。
本稿では,タスク固有の報酬にアクセスできることなく,タスクに依存しない方法でエージェントを事前訓練するフレームワークを提案する。
提案手法は,最も多様なインタラクション動作を実現し,下流タスクのサンプル効率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T06:57:46Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Adaptive Policy Transfer in Reinforcement Learning [9.594432031144715]
我々は,対象タスクの解法を学ぶために,ソースポリシーを適応させる「適応から学習」可能な原則的メカニズムを導入する。
提案手法は適応と探索から学習をシームレスに組み合わせることを学び、堅牢な政策伝達アルゴリズムに導くことを示した。
論文 参考訳(メタデータ) (2021-05-10T22:42:03Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Reinforcement Learning with Efficient Active Feature Acquisition [59.91808801541007]
実生活では、情報取得は患者の医療検査に該当する可能性がある。
本稿では,アクティブな特徴獲得ポリシーを学習するモデルに基づく強化学習フレームワークを提案する。
この成功の鍵は、部分的に観察された状態から高品質な表現を学ぶ新しい逐次変分自動エンコーダである。
論文 参考訳(メタデータ) (2020-11-02T08:46:27Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。