論文の概要: Towards an Interpretable Hierarchical Agent Framework using Semantic
Goals
- arxiv url: http://arxiv.org/abs/2210.08412v1
- Date: Sun, 16 Oct 2022 02:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 21:42:23.280559
- Title: Towards an Interpretable Hierarchical Agent Framework using Semantic
Goals
- Title(参考訳): 意味ゴールを用いた解釈可能な階層型エージェントフレームワークを目指して
- Authors: Bharat Prakash, Nicholas Waytowich, Tim Oates, Tinoosh Mohsenin
- Abstract要約: 本研究は、計画と意味的目標を指向した強化学習を組み合わせることで、解釈可能な階層型エージェントフレームワークを導入する。
我々は,ロボットブロック操作タスクの枠組みを評価し,他の手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 6.677083312952721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to solve long horizon temporally extended tasks with reinforcement
learning has been a challenge for several years now. We believe that it is
important to leverage both the hierarchical structure of complex tasks and to
use expert supervision whenever possible to solve such tasks. This work
introduces an interpretable hierarchical agent framework by combining planning
and semantic goal directed reinforcement learning. We assume access to certain
spatial and haptic predicates and construct a simple and powerful semantic goal
space. These semantic goal representations are more interpretable, making
expert supervision and intervention easier. They also eliminate the need to
write complex, dense reward functions thereby reducing human engineering
effort. We evaluate our framework on a robotic block manipulation task and show
that it performs better than other methods, including both sparse and dense
reward functions. We also suggest some next steps and discuss how this
framework makes interaction and collaboration with humans easier.
- Abstract(参考訳): 長い地平線を時間的に拡張したタスクを強化学習で解決する学習は、ここ数年にわたり課題となっている。
我々は、複雑なタスクの階層構造と、そのようなタスクを可能な限り専門家の監督に活用することが重要であると信じている。
本研究は,計画と意味目標指向強化学習を組み合わせた解釈可能な階層型エージェントフレームワークを提案する。
空間的および触覚的な述語へのアクセスを前提とし、単純で強力な意味的目標空間を構築する。
これらの意味的目標表現はより解釈可能であり、専門家の監督と介入を容易にする。
また、複雑な、密集した報酬関数を書く必要もなくなり、人的エンジニアリングの労力が削減される。
我々は,ロボットブロック操作の枠組みを評価し,疎度と高密度の報酬関数を含む他の手法よりも優れた性能を示す。
また、次のステップを提案し、このフレームワークがいかに人間との対話やコラボレーションを容易にしてくれるかを議論する。
関連論文リスト
- MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback
and Dynamic Distance Constraint [40.3872201560003]
階層的強化学習(HRL)は、タスクをサブゴールに分割し、それらを順次完了させる階層的枠組みを使用する。
現在の手法は、安定した学習プロセスを保証するための適切なサブゴールを見つけるのに苦労している。
本稿では,人間のフィードバックとダイナミック距離制約を取り入れた汎用階層型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T03:11:09Z) - Hierarchical reinforcement learning with natural language subgoals [26.725710518119044]
我々は、人間による課題解決のデータを用いて、3Dエンボディ環境での長いタスクのセットの目標空間をソフトに監督する。
これは2つの利点がある: 第一に、人間に優しい参加者からこのデータを生成するのは簡単である; 第二に、人間に関連するタスクにおいて、幅広いサブゴールを表現するのに十分な柔軟性がある。
提案手法は,これらのタスクにおいて専門家の振る舞いをクローンするエージェントと,この教師付きサブゴール空間を使わずに,HRLをスクラッチから実行するエージェントよりも優れる。
論文 参考訳(メタデータ) (2023-09-20T18:03:04Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Divide & Conquer Imitation Learning [75.31752559017978]
模倣学習は学習プロセスをブートストラップするための強力なアプローチである。
本稿では,専門的軌道の状態から複雑なロボットタスクを模倣する新しいアルゴリズムを提案する。
提案手法は,非ホロノミックナビゲーションタスクを模倣し,非常に高いサンプル効率で複雑なロボット操作タスクにスケールすることを示す。
論文 参考訳(メタデータ) (2022-04-15T09:56:50Z) - Possibility Before Utility: Learning And Using Hierarchical Affordances [21.556661319375255]
強化学習アルゴリズムは複雑な階層的依存構造を持つタスクに苦労する。
本稿では、より効果的な学習のために不可能なサブタスクを実践するために、階層的アフォーマンス学習(HAL)という階層的アフォーマンス学習(HAL)を提案する。
論文 参考訳(メタデータ) (2022-03-23T19:17:22Z) - A Persistent Spatial Semantic Representation for High-level Natural
Language Instruction Execution [54.385344986265714]
本稿では,言語行動とロボット行動のギャップを埋めるために,永続的な空間意味表現法を提案する。
一般的なステップバイステップ命令を完全に回避しながら、ALFREDベンチマークに対する我々のアプローチを評価し、最先端の結果を得る。
論文 参考訳(メタデータ) (2021-07-12T17:47:19Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。