論文の概要: Is Curiosity All You Need? On the Utility of Emergent Behaviours from
Curious Exploration
- arxiv url: http://arxiv.org/abs/2109.08603v1
- Date: Fri, 17 Sep 2021 15:28:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:27:43.579466
- Title: Is Curiosity All You Need? On the Utility of Emergent Behaviours from
Curious Exploration
- Title(参考訳): 好奇心は必要か?
キュリオス探査における創発的行動の有用性について
- Authors: Oliver Groth, Markus Wulfmeier, Giulia Vezzani, Vibhavari Dasagi, Tim
Hertweck, Roland Hafner, Nicolas Heess, Martin Riedmiller
- Abstract要約: 我々は、好奇心を高速な環境探索や、特定のタスクに対するボーナス報酬として使うだけでは、この手法の潜在能力を最大限に活用できないと論じている。
好奇心に基づく学習において出現する行動の維持に焦点を移すことを提案する。
- 参考スコア(独自算出の注目度): 20.38772636693469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Curiosity-based reward schemes can present powerful exploration mechanisms
which facilitate the discovery of solutions for complex, sparse or long-horizon
tasks. However, as the agent learns to reach previously unexplored spaces and
the objective adapts to reward new areas, many behaviours emerge only to
disappear due to being overwritten by the constantly shifting objective. We
argue that merely using curiosity for fast environment exploration or as a
bonus reward for a specific task does not harness the full potential of this
technique and misses useful skills. Instead, we propose to shift the focus
towards retaining the behaviours which emerge during curiosity-based learning.
We posit that these self-discovered behaviours serve as valuable skills in an
agent's repertoire to solve related tasks. Our experiments demonstrate the
continuous shift in behaviour throughout training and the benefits of a simple
policy snapshot method to reuse discovered behaviour for transfer tasks.
- Abstract(参考訳): 好奇心に基づく報酬スキームは、複雑でスパース、あるいは長いホリゾンタスクの解の発見を容易にする強力な探索メカニズムを提供することができる。
しかし、エージェントが未探索の空間に到達し、目的が新しい分野への報酬に適応することを学ぶと、常に変化する目的によって上書きされるため、多くの行動が消えてしまう。
我々は、好奇心を高速な環境探索や、特定のタスクに対するボーナス報酬として使うだけでは、このテクニックの潜在能力を最大限活用することができず、有用なスキルを欠いていると論じる。
代わりに、好奇心に基づく学習中に現れる行動の維持に焦点を移すことを提案する。
我々は,これらの自己発見行動がエージェントのレパートリーにおいて,関連する課題を解決する貴重なスキルとなることを示唆する。
本実験は, 学習過程における行動の連続的な変化と, 伝達タスクの発見動作を再利用するための簡単なポリシースナップショット法の利点を実証する。
関連論文リスト
- A Comprehensive Survey of Forgetting in Deep Learning Beyond Continual Learning [58.107474025048866]
蓄積とは、以前に獲得した知識の喪失または劣化を指す。
フォッテッティングは、深層学習における様々な研究領域でよく見られる現象である。
論文 参考訳(メタデータ) (2023-07-16T16:27:58Z) - Learning Options via Compression [62.55893046218824]
そこで本研究では,スキル記述長に対するペナルティと,最大限の目標を組み合わさった新たな目的を提案する。
我々の目的は、最大化可能性のみから学んだスキルと比較して、下流のタスクを少ないサンプルで解くスキルを学ぶことである。
論文 参考訳(メタデータ) (2022-12-08T22:34:59Z) - Unsupervised Reinforcement Learning for Transferable Manipulation Skill
Discovery [22.32327908453603]
ロボット工学における現在の強化学習(RL)は、しばしば新しい下流タスクへの一般化の難しさを経験する。
本稿では,タスク固有の報酬にアクセスできることなく,タスクに依存しない方法でエージェントを事前訓練するフレームワークを提案する。
提案手法は,最も多様なインタラクション動作を実現し,下流タスクのサンプル効率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T06:57:46Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Learning Task Agnostic Skills with Data-driven Guidance [0.0]
本稿では,専門家が訪問する状態のサブセットに向けて,スキル発見を導くための枠組みを提案する。
本手法を各種強化学習タスクに適用し,このような予測がより有用な行動をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-04T06:53:10Z) - Open-Ended Learning Leads to Generally Capable Agents [12.079718607356178]
環境領域内のタスクの宇宙を定義し、この広大な空間をまたいだエージェントを訓練する能力を示す。
結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習の進捗を測定することさえも、オープンな研究課題である。
オープンエンド学習プロセスの構築により,エージェントが学習を止めないようなトレーニングタスク分布や訓練目標を動的に変化させることで,新しい行動の一貫性のある学習が可能になることを示す。
論文 参考訳(メタデータ) (2021-07-27T13:30:07Z) - Touch-based Curiosity for Sparse-Reward Tasks [15.766198618516137]
タッチフィードバックのミスマッチからサプライズを使用して,難解な強化学習タスクの探索をガイドしています。
私たちのアプローチであるタッチベースのCuriosity(ToC)は、目に見えるオブジェクトの相互作用が「感じる」ことを学習します。
我々はタッチ集約型ロボットアームタスクにアプローチを試行する。
論文 参考訳(メタデータ) (2021-04-01T12:49:29Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。