論文の概要: Hierarchical reinforcement learning with natural language subgoals
- arxiv url: http://arxiv.org/abs/2309.11564v1
- Date: Wed, 20 Sep 2023 18:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 18:01:33.085976
- Title: Hierarchical reinforcement learning with natural language subgoals
- Title(参考訳): 自然言語サブゴールを用いた階層的強化学習
- Authors: Arun Ahuja, Kavya Kopparapu, Rob Fergus, Ishita Dasgupta
- Abstract要約: 我々は、人間による課題解決のデータを用いて、3Dエンボディ環境での長いタスクのセットの目標空間をソフトに監督する。
これは2つの利点がある: 第一に、人間に優しい参加者からこのデータを生成するのは簡単である; 第二に、人間に関連するタスクにおいて、幅広いサブゴールを表現するのに十分な柔軟性がある。
提案手法は,これらのタスクにおいて専門家の振る舞いをクローンするエージェントと,この教師付きサブゴール空間を使わずに,HRLをスクラッチから実行するエージェントよりも優れる。
- 参考スコア(独自算出の注目度): 26.725710518119044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical reinforcement learning has been a compelling approach for
achieving goal directed behavior over long sequences of actions. However, it
has been challenging to implement in realistic or open-ended environments. A
main challenge has been to find the right space of sub-goals over which to
instantiate a hierarchy. We present a novel approach where we use data from
humans solving these tasks to softly supervise the goal space for a set of long
range tasks in a 3D embodied environment. In particular, we use unconstrained
natural language to parameterize this space. This has two advantages: first, it
is easy to generate this data from naive human participants; second, it is
flexible enough to represent a vast range of sub-goals in human-relevant tasks.
Our approach outperforms agents that clone expert behavior on these tasks, as
well as HRL from scratch without this supervised sub-goal space. Our work
presents a novel approach to combining human expert supervision with the
benefits and flexibility of reinforcement learning.
- Abstract(参考訳): 階層的強化学習は、アクションの長いシーケンスで目標指向行動を達成するための説得力のあるアプローチである。
しかし、現実的あるいはオープンな環境で実装することは困難である。
主な課題は、階層をインスタンス化するサブゴールの適切なスペースを見つけることである。
本稿では,これらの課題を解決する人間のデータを用いて,3次元エンボディ環境において,一連の長距離タスクの目標空間をソフトに監視する新しい手法を提案する。
特に、制約のない自然言語を使ってこの空間をパラメータ化する。
これは2つの利点がある: 第一に、人間に優しい参加者からこのデータを生成するのは簡単である; 第二に、人間に関連するタスクにおいて、幅広いサブゴールを表現するのに十分な柔軟性がある。
提案手法は,これらのタスクにおいて専門家の振る舞いをクローンするエージェントと,この教師付きサブゴール空間を使わずにゼロからHRLを向上する。
本研究は,人間エキスパートの監督と強化学習の利点と柔軟性を組み合わせた新しいアプローチを提案する。
関連論文リスト
- MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback
and Dynamic Distance Constraint [40.3872201560003]
階層的強化学習(HRL)は、タスクをサブゴールに分割し、それらを順次完了させる階層的枠組みを使用する。
現在の手法は、安定した学習プロセスを保証するための適切なサブゴールを見つけるのに苦労している。
本稿では,人間のフィードバックとダイナミック距離制約を取り入れた汎用階層型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T03:11:09Z) - Scaling Goal-based Exploration via Pruning Proto-goals [10.976262029859424]
強化学習における最も厄介な課題の1つは、広大な領域に拡大する探索である。
ゴール指向で目的を持った行動は、これを克服できるが、良いゴールスペースに依存している。
提案手法は,人間設計者が広いが有意義な原ゴール空間を指定できるように,中間領域を明示的に求めている。
論文 参考訳(メタデータ) (2023-02-09T15:22:09Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Towards an Interpretable Hierarchical Agent Framework using Semantic
Goals [6.677083312952721]
本研究は、計画と意味的目標を指向した強化学習を組み合わせることで、解釈可能な階層型エージェントフレームワークを導入する。
我々は,ロボットブロック操作タスクの枠組みを評価し,他の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-16T02:04:13Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。