論文の概要: Sub-Goal Trees -- a Framework for Goal-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.12361v2
- Date: Mon, 21 Dec 2020 15:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 08:06:10.580765
- Title: Sub-Goal Trees -- a Framework for Goal-Based Reinforcement Learning
- Title(参考訳): Sub-Goal Trees - 目標ベースの強化学習フレームワーク
- Authors: Tom Jurgenson, Or Avner, Edward Groshev, Aviv Tamar
- Abstract要約: 多くのAI問題は、ロボット工学やその他の分野において、ゴールベースであり、基本的には様々な目標状態につながる軌道を求めている。
本稿では,全てのペア最短経路(APSP)問題に対する動的プログラミング方程式から導出した新しいRLフレームワークを提案する。
このアプローチは、標準的な動的プログラミングと近似動的プログラミングの両方に計算上の利点があることを示す。
- 参考スコア(独自算出の注目度): 20.499747716864686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many AI problems, in robotics and other domains, are goal-based, essentially
seeking trajectories leading to various goal states. Reinforcement learning
(RL), building on Bellman's optimality equation, naturally optimizes for a
single goal, yet can be made multi-goal by augmenting the state with the goal.
Instead, we propose a new RL framework, derived from a dynamic programming
equation for the all pairs shortest path (APSP) problem, which naturally solves
multi-goal queries. We show that this approach has computational benefits for
both standard and approximate dynamic programming. Interestingly, our
formulation prescribes a novel protocol for computing a trajectory: instead of
predicting the next state given its predecessor, as in standard RL, a
goal-conditioned trajectory is constructed by first predicting an intermediate
state between start and goal, partitioning the trajectory into two. Then,
recursively, predicting intermediate points on each sub-segment, until a
complete trajectory is obtained. We call this trajectory structure a sub-goal
tree. Building on it, we additionally extend the policy gradient methodology to
recursively predict sub-goals, resulting in novel goal-based algorithms.
Finally, we apply our method to neural motion planning, where we demonstrate
significant improvements compared to standard RL on navigating a 7-DoF robot
arm between obstacles.
- Abstract(参考訳): 多くのai問題は、ロボティクスや他の分野において、目標ベースであり、基本的に様々な目標状態につながる軌道を求める。
強化学習(Reinforcement Learning, RL)はベルマンの最適性方程式に基づいて、自然に1つのゴールを最適化するが、目標で状態を増強することでマルチゴール化することができる。
代わりに,多元的問合せを自然に解くall pairs shortest path (apsp)問題に対する動的プログラミング方程式から導出した新しいrlフレームワークを提案する。
このアプローチは、標準および近似動的プログラミングの両方に計算上の利点があることを示す。
興味深いことに,本定式では,従来のRLのように次の状態を予測する代わりに,最初に開始と目標の中間状態を予測し,軌道を2つに分割することで,目標条件付き軌道を構築する。
そして、各サブセグメンテーションの中間点を、完全な軌道が得られるまで再帰的に予測する。
この軌道構造をサブゴールツリーと呼ぶ。
さらに,それに基づいて政策勾配の方法論を拡張して,新たなゴールベースアルゴリズムを創出する。
最後に,本手法を神経運動計画に適用し,障害物間の7-DoFロボットアームのナビゲートにおける標準RLと比較して,大幅な改善を示した。
関連論文リスト
- GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models [31.628341050846768]
ゴール条件付きオフライン計画(GOPlan)は、2つの重要なフェーズを含む新しいモデルベースのフレームワークである。
GOPlanは、マルチゴールデータセット内のマルチモーダルアクション分布をキャプチャ可能な事前ポリシーを事前トレーニングする。
本手法は,軌道内目標と軌道間目標の両方の学習モデルを用いて,高品質な仮想データを生成する。
論文 参考訳(メタデータ) (2023-10-30T21:19:52Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。