論文の概要: Pure Planning to Pure Policies and In Between with a Recursive Tree Planner
- arxiv url: http://arxiv.org/abs/2405.13130v1
- Date: Tue, 21 May 2024 18:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 04:12:17.796729
- Title: Pure Planning to Pure Policies and In Between with a Recursive Tree Planner
- Title(参考訳): 純政策への純計画と再帰的ツリープランナーとの関わり
- Authors: A. Norman Redlich,
- Abstract要約: RTPは、一方の極端にポリシーのない純粋なプランナーとして機能し、もう一方の極端に純粋に欲求的なポリシーを実行するように設計されている。
その間に、RTPは計画性能を改善し、ある計画問題から別の計画問題へのゼロショット転送を改善するためにポリシーを利用する。
RTPは、古典的な月面着陸機(Farama 2022)や、MuJoCo(Todorov et al 2012)逆振り子など、さまざまなBox2d(Cato 2022)問題でテストされている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recursive tree planner (RTP) is designed to function as a pure planner without policies at one extreme and run a pure greedy policy at the other. In between, the RTP exploits policies to improve planning performance and improve zero-shot transfer from one class of planning problem to another. Policies are learned through imitation of the planner. These are then used by the planner to improve policies in a virtuous cycle. To improve planning performance and zero-shot transfer, the RTP incorporates previously learned tasks as generalized actions (GA) at any level of its hierarchy, and can refine those GA by adding primitive actions at any level too. For search, the RTP uses a generalized Dijkstra algorithm [Dijkstra 1959] which tries the greedy policy first and then searches over near-greedy paths and then farther away as necessary. The RPT can return multiple sub-goals from lower levels as well as boundary states near obstacles, and can exploit policies with background and object-number invariance. Policies at all levels of the hierarchy can be learned simultaneously or in any order or come from outside the framework. The RTP is tested here on a variety of Box2d [Cato 2022] problems, including the classic lunar lander [Farama 2022], and on the MuJoCo [Todorov et al 2012] inverted pendulum.
- Abstract(参考訳): 再帰的ツリープランナー(RTP)は、一方の極端にポリシーなしで純粋なプランナーとして機能し、もう一方の極端に純粋に欲求的なポリシーを実行するように設計されている。
その間に、RTPは計画性能を改善し、ある計画問題から別の計画問題へのゼロショット転送を改善するためにポリシーを利用する。
政策はプランナーの模倣によって学習される。
その後、これらはプランナーによって、厳格なサイクルでポリシーを改善するために使用される。
計画性能とゼロショット転送を改善するため、RTPは学習済みのタスクを階層の任意のレベルにおいて一般化されたアクション(GA)として組み込んでおり、任意のレベルにプリミティブなアクションを追加することでそれらのGAを洗練することができる。
RTP は一般化された Dijkstra アルゴリズム (Dijkstra 1959) を用いており、このアルゴリズムはまず欲求政策を試み、その後、ほぼ欲求経路を探索し、必要に応じて遠くまで行く。
RPTは、複数のサブゴールを低レベルから、障害に近い境界状態から返却することができ、バックグラウンドおよびオブジェクト番号の不変性を持つポリシーを利用することができる。
階層のあらゆるレベルにおけるポリシーは、同時に、あるいは任意の順序で、あるいはフレームワークの外から学ぶことができる。
RTPは、古典的な月面着陸機(Farama 2022)や、MuJoCo(Todorov et al 2012)逆振り子など、さまざまなBox2d(Cato 2022)問題でテストされている。
関連論文リスト
- Policy Mirror Descent with Lookahead [0.46040036610482665]
Policy Mirror Descent (PMD) はソフトポリシー 正規化された1段階の欲求政策改善を実装するアルゴリズム。
我々は,多段階の欲求政策改善を取り入れた新しいPMDアルゴリズムである$h$-PMDを提案する。
我々は, 次元自由な$gammah$-linearコンバージェンスレートを, 多段階グリーディポリシの計算により, $h$-PMDがより高速な次元自由な$gammah$-linearコンバージェンスレートを享受できることを示す。
論文 参考訳(メタデータ) (2024-03-21T06:10:51Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - SoftTreeMax: Policy Gradient with Tree Search [72.9513807133171]
我々は、ツリー検索をポリシー勾配に統合する最初のアプローチであるSoftTreeMaxを紹介します。
Atariでは、SoftTreeMaxが分散PPOと比較して、実行時のパフォーマンスを最大5倍向上させる。
論文 参考訳(メタデータ) (2022-09-28T09:55:47Z) - 1st Place Solutions for RxR-Habitat Vision-and-Language Navigation
Competition (CVPR 2022) [28.5740809300599]
連続環境における視覚・言語ナビゲーション(VLN-CE)問題に対するモジュール型計画・制御手法を提案する。
提案モデルは,候補経路予測器(CWP),履歴拡張プランナー,試行制御器の3つのモジュールから構成される。
我々のモデルは2022年のRxR-Habitatコンペティションで優勝し、NDTWおよびSRメトリクスの既存手法に比べて48%と90%の相対的な改善があった。
論文 参考訳(メタデータ) (2022-06-23T10:36:53Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - PG3: Policy-Guided Planning for Generalized Policy Generation [25.418642034856365]
本稿では,政策探索の指針となるスコア関数に着目した一般政策探索手法について検討する。
このアプローチの背景にある主な考え方は、その候補を評価するためのメカニズムとして、トレーニング問題の計画立案に候補ポリシーを使うべきだということです。
6つのドメインの実証的な結果は、PG3が複数のベースラインよりも効率的かつ効果的に一般化されたポリシーを学習していることを確認する。
論文 参考訳(メタデータ) (2022-04-21T21:59:25Z) - Differentiable Spatial Planning using Transformers [87.90709874369192]
本研究では、長距離空間依存を計画して行動を生成する障害マップを与えられた空間計画変換器(SPT)を提案する。
エージェントが地上の真理マップを知らない環境では、エンド・ツー・エンドのフレームワークで事前訓練されたSPTを利用する。
SPTは、操作タスクとナビゲーションタスクの両方のすべてのセットアップにおいて、最先端の差別化可能なプランナーよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T06:48:16Z) - Learning When to Switch: Composing Controllers to Traverse a Sequence of
Terrain Artifacts [2.1525499774103087]
Deep Reinforcement Learning (DRL)は手作りの制御設計に代わる有望な代替品である。
DRLポリシーは、隣接するポリシー間で重複する領域がほとんどあるいは全くない複雑な振る舞いをもたらす可能性がある。
我々は,複数のDRLポリシを開発し,各地形条件を相互に関連付けるとともに,相互に重複するポリシーを確実にする。
次に、他の方針から切り換える確率を推定する宛先ポリシーのネットワークを訓練する。
論文 参考訳(メタデータ) (2020-11-01T06:34:42Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。