論文の概要: Show me the Way: Intrinsic Motivation from Demonstrations
- arxiv url: http://arxiv.org/abs/2006.12917v2
- Date: Wed, 13 Jan 2021 14:36:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 22:09:16.365679
- Title: Show me the Way: Intrinsic Motivation from Demonstrations
- Title(参考訳): デモから生み出した本質的な動機
- Authors: L\'eonard Hussenot, Robert Dadashi, Matthieu Geist, Olivier Pietquin
- Abstract要約: 複雑な探索行動は, 異なる動機を反映して, RLエージェントによって学習し, 効率的に利用でき, 徹底的な探索が禁じられる課題を解決することができることを示す。
本稿では,これらのモチベーションを人工エージェントに伝達する実証実験から探索ボーナスを学習することを提案する。
- 参考スコア(独自算出の注目度): 44.87651595571687
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The study of exploration in the domain of decision making has a long history
but remains actively debated. From the vast literature that addressed this
topic for decades under various points of view (e.g., developmental psychology,
experimental design, artificial intelligence), intrinsic motivation emerged as
a concept that can practically be transferred to artificial agents. Especially,
in the recent field of Deep Reinforcement Learning (RL), agents implement such
a concept (mainly using a novelty argument) in the shape of an exploration
bonus, added to the task reward, that encourages visiting the whole
environment. This approach is supported by the large amount of theory on RL for
which convergence to optimality assumes exhaustive exploration. Yet, Human
Beings and mammals do not exhaustively explore the world and their motivation
is not only based on novelty but also on various other factors (e.g.,
curiosity, fun, style, pleasure, safety, competition, etc.). They optimize for
life-long learning and train to learn transferable skills in playgrounds
without obvious goals. They also apply innate or learned priors to save time
and stay safe. For these reasons, we propose to learn an exploration bonus from
demonstrations that could transfer these motivations to an artificial agent
with little assumptions about their rationale. Using an inverse RL approach, we
show that complex exploration behaviors, reflecting different motivations, can
be learnt and efficiently used by RL agents to solve tasks for which exhaustive
exploration is prohibitive.
- Abstract(参考訳): 意思決定分野における探索研究は長い歴史があるが、現在も活発に議論されている。
様々な視点(例えば発達心理学、実験設計、人工知能など)で何十年もこの問題に取り組んできた膨大な文献から、本質的な動機づけは、実際に人工的なエージェントに移行できる概念として現れた。
特に近年のDeep Reinforcement Learning (RL)では、エージェントが探索ボーナスの形で(主に斬新な議論を用いて)そのような概念を実装し、タスク報酬に付加され、環境全体への訪問を促進する。
このアプローチは、最適性への収束が徹底的な探索を前提とするRLに関する大量の理論によって支持される。
しかし、人間や哺乳類は世界を徹底的に探索するだけでなく、その動機は新奇性だけでなく、他の様々な要因(好奇性、楽しさ、スタイル、楽しさ、安全、競争など)にも基づいている。
彼らは生涯学習を最適化し、明確な目標なしに遊び場で移行可能なスキルを学ぶように訓練する。
彼らはまた、時間を節約し安全に保つために、生来的または学習済みの事前を適用する。
これらの理由から,我々は,これらの動機づけを,その理論的根拠をほとんど仮定せずに人工エージェントに伝達する実験から,探索ボーナスを学ぶことを提案する。
逆RL手法を用いて、複雑な探索行動は、異なる動機を反映し、RLエージェントが学習し、効率的に使用し、徹底的な探索が禁止される課題を解決することができることを示す。
関連論文リスト
- First Go, then Post-Explore: the Benefits of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの主な洞察は、調査を成功させるためには、エージェントが最初に興味深い状態に戻る必要があります。
目標達成後の探査を「後探査」と呼ぶ。
論文 参考訳(メタデータ) (2022-12-06T18:56:47Z) - Intrinsically-Motivated Reinforcement Learning: A Brief Introduction [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の3つの基本パラダイムの1つである。
本稿では,RLにおける探査改善の問題点を考察し,本質的な動機付け型RLを導入した。
論文 参考訳(メタデータ) (2022-03-03T12:39:58Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z) - See, Hear, Explore: Curiosity via Audio-Visual Association [46.86865495827888]
好奇心駆動探索の一般的な定式化は、学習モデルによって予測される現実と未来の違いを使用する。
本稿では,異なる感覚の新たな関連性に報いる新たな好奇心について紹介する。
我々のアプローチは、より効率的な探索のためのより強力な信号を提供するために、複数のモダリティを利用する。
論文 参考訳(メタデータ) (2020-07-07T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。