論文の概要: Hierarchical and Partially Observable Goal-driven Policy Learning with
Goals Relational Graph
- arxiv url: http://arxiv.org/abs/2103.01350v1
- Date: Mon, 1 Mar 2021 23:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:04:19.740136
- Title: Hierarchical and Partially Observable Goal-driven Policy Learning with
Goals Relational Graph
- Title(参考訳): 目標関係グラフを用いた階層的および部分的観察可能な目標駆動政策学習
- Authors: Xin Ye and Yezhou Yang
- Abstract要約: 目標グラフ(GRG)を用いた新しい2層階層学習手法を提案する。
我々のGRGはディリクレカテゴリーのプロセスを通じて、ゴール空間におけるすべてのゴールの根底にある関係を捉えます。
実験の結果,我々のアプローチは未発見の環境と新しい目標の両方において優れた一般化を示すことがわかった。
- 参考スコア(独自算出の注目度): 21.260858893505183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel two-layer hierarchical reinforcement learning approach
equipped with a Goals Relational Graph (GRG) for tackling the partially
observable goal-driven task, such as goal-driven visual navigation. Our GRG
captures the underlying relations of all goals in the goal space through a
Dirichlet-categorical process that facilitates: 1) the high-level network
raising a sub-goal towards achieving a designated final goal; 2) the low-level
network towards an optimal policy; and 3) the overall system generalizing
unseen environments and goals. We evaluate our approach with two settings of
partially observable goal-driven tasks -- a grid-world domain and a robotic
object search task. Our experimental results show that our approach exhibits
superior generalization performance on both unseen environments and new goals.
- Abstract(参考訳): 本稿では,目標駆動ビジュアルナビゲーションなどの部分的に観測可能な目標駆動タスクに取り組むための目標関係グラフ(grg)を備えた,新たな2層階層強化学習手法を提案する。
GRGは, 目標空間におけるすべての目標の関係を, 1) 指定された最終目標を達成するための下位目標を掲げるハイレベルネットワーク, 2) 最適政策に向けた低レベルネットワーク, 3) 目に見えない環境と目標を一般化する総合システムを通じて把握する。
グリッドワールドドメインとロボティクスオブジェクト探索タスクという,部分的に監視可能な目標駆動タスクの2つの設定でアプローチを評価します。
実験の結果,本手法は未知環境と新たな目標の両方において優れた一般化性能を示すことがわかった。
関連論文リスト
- Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Visual Goal-Directed Meta-Learning with Contextual Planning Networks [0.0]
最初の試みで、新しい目標とタスクを一般化するために、文脈計画ネットワーク(CPN)を導入します。
我々は、ゼロショットゴール指向メタ学習に適応した他のいくつかのアプローチとともにCPNを評価した。
論文 参考訳(メタデータ) (2021-11-18T19:11:01Z) - Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning [15.33496710690063]
本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
論文 参考訳(メタデータ) (2021-10-25T14:24:39Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Sub-Goal Trees -- a Framework for Goal-Based Reinforcement Learning [20.499747716864686]
多くのAI問題は、ロボット工学やその他の分野において、ゴールベースであり、基本的には様々な目標状態につながる軌道を求めている。
本稿では,全てのペア最短経路(APSP)問題に対する動的プログラミング方程式から導出した新しいRLフレームワークを提案する。
このアプローチは、標準的な動的プログラミングと近似動的プログラミングの両方に計算上の利点があることを示す。
論文 参考訳(メタデータ) (2020-02-27T12:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。