論文の概要: Exploring with Sticky Mittens: Reinforcement Learning with Expert
Interventions via Option Templates
- arxiv url: http://arxiv.org/abs/2202.12967v1
- Date: Fri, 25 Feb 2022 20:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 13:32:25.850713
- Title: Exploring with Sticky Mittens: Reinforcement Learning with Expert
Interventions via Option Templates
- Title(参考訳): sticky mittensによる探究: オプションテンプレートによるエキスパート介入による強化学習
- Authors: Souradeep Dutta, Kaustubh Sridhar, Osbert Bastani, Edgar Dobriban,
James Weimer, Insup Lee, Julia Parish-Morris
- Abstract要約: 本稿では,長期強化学習課題の解決に専門家の介入を活用する枠組みを提案する。
我々は、強化学習を用いてトレーニング可能な潜在的オプションを符号化する仕様であるオプションテンプレートについて検討する。
我々は,3つの強化学習問題に対するアプローチを評価した結果,最先端のアプローチを桁違いに上回る結果となった。
- 参考スコア(独自算出の注目度): 31.836234758355243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Environments with sparse rewards and long horizons pose a significant
challenge for current reinforcement learning algorithms. A key feature enabling
humans to learn challenging control tasks is that they often receive expert
intervention that enables them to understand the high-level structure of the
task before mastering low-level control actions. We propose a framework for
leveraging expert intervention to solve long-horizon reinforcement learning
tasks. We consider option templates, which are specifications encoding a
potential option that can be trained using reinforcement learning. We formulate
expert intervention as allowing the agent to execute option templates before
learning an implementation. This enables them to use an option, before
committing costly resources to learning it. We evaluate our approach on three
challenging reinforcement learning problems, showing that it outperforms state
of-the-art approaches by an order of magnitude. Project website at
https://sites.google.com/view/stickymittens
- Abstract(参考訳): 少ない報酬と長い地平線を持つ環境は、現在の強化学習アルゴリズムに重大な課題をもたらす。
人間が困難なコントロールタスクを学習できる重要な特徴は、低レベルのコントロールアクションをマスターする前に、タスクの高レベルの構造を理解するための専門家の介入をしばしば受けられることである。
本稿では,長期強化学習課題の解決に専門家の介入を活用する枠組みを提案する。
我々は、強化学習を用いてトレーニング可能な潜在的オプションを符号化する仕様であるオプションテンプレートを検討する。
エージェントが実装を学ぶ前にオプションテンプレートを実行できるように、専門家の介入を定式化する。
これにより、学習に高価なリソースを投入する前に、オプションを使用できるようになる。
本研究では,3つの強化学習問題に対するアプローチを評価した結果,最先端のアプローチを桁違いに上回る結果となった。
Project website at https://sites.google.com/view/stickymittens
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - Bootstrap Your Own Skills: Learning to Solve New Tasks with Large
Language Model Guidance [66.615355754712]
BOSSが"スキルブートストラップ"を実行して新しいタスクを達成
LLM誘導型ブートストラップ法で訓練されたエージェントは,実生活環境における実測実験により,ナイーブなブートストラップ法で訓練されたエージェントよりも優れていた。
論文 参考訳(メタデータ) (2023-10-16T02:43:47Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - The Paradox of Choice: Using Attention in Hierarchical Reinforcement
Learning [59.777127897688594]
サブゴールオプションのさらなる学習に使用できる、オンラインでモデルフリーなアルゴリズムを提案する。
訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。
論文 参考訳(メタデータ) (2022-01-24T13:18:02Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。