論文の概要: Int-HRL: Towards Intention-based Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.11483v1
- Date: Tue, 20 Jun 2023 12:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 14:33:27.935451
- Title: Int-HRL: Towards Intention-based Hierarchical Reinforcement Learning
- Title(参考訳): Int-HRL:意図に基づく階層的強化学習を目指して
- Authors: Anna Penzkofer, Simon Schaefer, Florian Strohm, Mihai B\^ace, Stefan
Leutenegger, Andreas Bulling
- Abstract要約: Int-HRL:人間の視線から推測される意図に基づくサブゴールを持つ階層的RL。
本評価の結果,手作りサブゴールを自動抽出した意図で置き換えることにより,従来の方法よりもはるかに効率のよいHRLエージェントが得られることがわかった。
- 参考スコア(独自算出の注目度): 23.062590084580542
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While deep reinforcement learning (RL) agents outperform humans on an
increasing number of tasks, training them requires data equivalent to decades
of human gameplay. Recent hierarchical RL methods have increased sample
efficiency by incorporating information inherent to the structure of the
decision problem but at the cost of having to discover or use human-annotated
sub-goals that guide the learning process. We show that intentions of human
players, i.e. the precursor of goal-oriented decisions, can be robustly
predicted from eye gaze even for the long-horizon sparse rewards task of
Montezuma's Revenge - one of the most challenging RL tasks in the Atari2600
game suite. We propose Int-HRL: Hierarchical RL with intention-based sub-goals
that are inferred from human eye gaze. Our novel sub-goal extraction pipeline
is fully automatic and replaces the need for manual sub-goal annotation by
human experts. Our evaluations show that replacing hand-crafted sub-goals with
automatically extracted intentions leads to a HRL agent that is significantly
more sample efficient than previous methods.
- Abstract(参考訳): 深層強化学習(RL)エージェントは、ますます多くのタスクにおいて人間よりも優れていますが、トレーニングには何十年もの人間のゲームプレイに相当するデータが必要です。
近年の階層的RL法では, 決定問題の構造に固有の情報を組み込むことで, 学習過程をガイドする人間の注釈付きサブゴールを発見・使用する必要が生じた。
我々は,Atari2600ゲームスイートにおいて最も難易度の高いRLタスクであるモンテズマのリベンジの長距離スパース報酬タスクにおいても,人間の選手の意図,すなわちゴール指向決定の先駆者である意図を目視からしっかりと予測できることを示す。
Int-HRL:人間の視線から推定される意図に基づくサブゴールを持つ階層型RLを提案する。
提案するサブgoal抽出パイプラインは完全に自動化され,人間の専門家による手動サブgoalアノテーションの必要性を置き換えている。
本評価の結果,手作りサブゴールを自動抽出した意図で置き換えることにより,従来の方法よりもはるかに効率のよいHRLエージェントが得られることがわかった。
関連論文リスト
- Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Primitive Skill-based Robot Learning from Human Evaluative Feedback [28.046559859978597]
強化学習アルゴリズムは、現実世界環境における長期ロボット操作タスクを扱う際に、課題に直面している。
本稿では,人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習の2つのアプローチを活用する新しいフレームワークSEEDを提案する。
以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T20:48:30Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。
本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。
これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Machine versus Human Attention in Deep Reinforcement Learning Tasks [38.80270891345248]
タスク実行中の画素を解析することで、そのような訓練されたモデルの内面動作に光を当てた。
我々は,アタリゲームを学習する際,RLエージェントのサリエンシマップと,人間の専門家の視覚的注意モデルを比較した。
論文 参考訳(メタデータ) (2020-10-29T20:58:45Z) - Hierarchical Reinforcement Learning in StarCraft II with Human Expertise
in Subgoals Selection [13.136763521789307]
本稿では,人的知識に基づく暗黙的なカリキュラム設計を通じて,HRL,経験リプレイ,効果的なサブゴール選択を統合した新しい手法を提案する。
提案手法は, フラットおよびエンド・ツー・エンドのRL法よりも優れたサンプリング効率を実現し, エージェントの性能を説明する効果的な方法を提供する。
論文 参考訳(メタデータ) (2020-08-08T04:56:30Z) - Accelerating Reinforcement Learning Agent with EEG-based Implicit Human
Feedback [10.138798960466222]
人間のフィードバックによる強化学習(RL)エージェントは、学習のさまざまな側面を劇的に改善することができる。
従来の方法では、人間の観察者が明示的に入力をし、RLエージェントの学習プロセスのループで人間を負担する必要があった。
脳波による人間の内因性反応を、エラー関連電位(ErrP)の形で暗黙の(そして自然な)フィードバックとして捉えることを検討する。
論文 参考訳(メタデータ) (2020-06-30T03:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。