論文の概要: Adaptive Policy Transfer in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.04699v1
- Date: Mon, 10 May 2021 22:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 04:58:28.520171
- Title: Adaptive Policy Transfer in Reinforcement Learning
- Title(参考訳): 強化学習における適応的政策伝達
- Authors: Girish Joshi, Girish Chowdhary
- Abstract要約: 我々は,対象タスクの解法を学ぶために,ソースポリシーを適応させる「適応から学習」可能な原則的メカニズムを導入する。
提案手法は適応と探索から学習をシームレスに組み合わせることを学び、堅牢な政策伝達アルゴリズムに導くことを示した。
- 参考スコア(独自算出の注目度): 9.594432031144715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient and robust policy transfer remains a key challenge for
reinforcement learning to become viable for real-wold robotics. Policy transfer
through warm initialization, imitation, or interacting over a large set of
agents with randomized instances, have been commonly applied to solve a variety
of Reinforcement Learning tasks. However, this seems far from how skill
transfer happens in the biological world: Humans and animals are able to
quickly adapt the learned behaviors between similar tasks and learn new skills
when presented with new situations. Here we seek to answer the question: Will
learning to combine adaptation and exploration lead to a more efficient
transfer of policies between domains? We introduce a principled mechanism that
can "Adapt-to-Learn", that is adapt the source policy to learn to solve a
target task with significant transition differences and uncertainties. We show
that the presented method learns to seamlessly combine learning from adaptation
and exploration and leads to a robust policy transfer algorithm with
significantly reduced sample complexity in transferring skills between related
tasks.
- Abstract(参考訳): 効率的で堅牢な政策移行は、強化学習が現実のロボットに有効になるための鍵となる課題である。
温かい初期化、模倣、あるいはランダム化されたインスタンスを持つ多数のエージェントの相互作用による政策伝達は、様々な強化学習タスクの解決に一般的に応用されている。
人間と動物は、類似したタスク間で学習した行動に迅速に適応し、新しい状況で提示された新しいスキルを学ぶことができる。
適応と探索を組み合わせた学習は、ドメイン間のポリシーのより効率的な移行につながるだろうか?
本稿では,「適応学習」を基本方針に適応させ,目標課題の解決を重要な遷移の相違と不確実性で学べる原理的メカニズムを提案する。
提案手法は適応と探索からの学習をシームレスに組み合わせて学習し、関連するタスク間の伝達スキルのサンプルの複雑さを著しく低減した堅牢なポリシー伝達アルゴリズムを実現する。
関連論文リスト
- Diversity for Contingency: Learning Diverse Behaviors for Efficient
Adaptation and Transfer [0.0]
与えられたタスクのすべての可能な解を見つけるための簡単な方法を提案する。
従来の手法とは異なり,本手法では新規性検出のための新たなモデルを学ぶ必要はない。
論文 参考訳(メタデータ) (2023-10-11T13:39:35Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Learning Multi-Task Transferable Rewards via Variational Inverse
Reinforcement Learning [10.782043595405831]
我々は、生成的対向ネットワークの枠組みに基づく複数のタスクを伴う状況に対して、エンパワーメントに基づく正規化手法を拡張した。
未知のダイナミクスを持つマルチタスク環境下では、ラベルのない専門家の例から報酬とポリシーを学ぶことに集中する。
提案手法は, 状況的相互情報の変動的下限を導出し, 最適化する。
論文 参考訳(メタデータ) (2022-06-19T22:32:41Z) - Multi-Agent Policy Transfer via Task Relationship Modeling [28.421365805638953]
我々は、タスク間の共通構造を発見し、活用し、より効率的な転送を試みる。
本稿では,タスクの共通空間として効果に基づくタスク表現を学習する。
その結果,提案手法は,学習した協調知識をいくつかのソースタスクの学習後に新しいタスクに伝達するのに役立つ。
論文 参考訳(メタデータ) (2022-03-09T01:49:21Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Transferability in Deep Learning: A Survey [80.67296873915176]
知識を習得し再利用する能力は、ディープラーニングにおける伝達可能性として知られている。
本研究は,深層学習における異なる孤立領域と伝達可能性との関係を関連付けるための調査である。
我々はベンチマークとオープンソースライブラリを実装し、転送可能性の観点からディープラーニング手法の公平な評価を可能にする。
論文 参考訳(メタデータ) (2022-01-15T15:03:17Z) - Coverage as a Principle for Discovering Transferable Behavior in
Reinforcement Learning [16.12658895065585]
私たちは、表現だけでは挑戦的な領域での効率的な転送には不十分であり、行動を通じて知識を伝達する方法を探ります。
事前訓練された政策の行動は、手作業(探索)の問題解決や、問題(探索)の解決に有用なデータ収集に利用することができる。
論文 参考訳(メタデータ) (2021-02-24T16:51:02Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。