論文の概要: PlanDQ: Hierarchical Plan Orchestration via D-Conductor and Q-Performer
- arxiv url: http://arxiv.org/abs/2406.06793v1
- Date: Mon, 10 Jun 2024 20:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 20:05:58.680640
- Title: PlanDQ: Hierarchical Plan Orchestration via D-Conductor and Q-Performer
- Title(参考訳): PlanDQ: D-ConductorとQ-Performerによる階層的プランオーケストレーション
- Authors: Chang Chen, Junyeob Baek, Fei Deng, Kenji Kawaguchi, Caglar Gulcehre, Sungjin Ahn,
- Abstract要約: 我々はPlanDQと呼ばれるオフラインRL用に設計された階層型プランナを提案する。
PlanDQはD-Conductorという名前の拡散型プランナーを高レベルに組み込んでおり、サブゴールを通じて低レベル政策を導く。
低レベルでは、これらのサブゴールを達成するためにQ-Performerと呼ばれるQ-ラーニングベースのアプローチを使用しました。
- 参考スコア(独自算出の注目度): 47.924941959320996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent advancements in offline RL, no unified algorithm could achieve superior performance across a broad range of tasks. Offline \textit{value function learning}, in particular, struggles with sparse-reward, long-horizon tasks due to the difficulty of solving credit assignment and extrapolation errors that accumulates as the horizon of the task grows.~On the other hand, models that can perform well in long-horizon tasks are designed specifically for goal-conditioned tasks, which commonly perform worse than value function learning methods on short-horizon, dense-reward scenarios. To bridge this gap, we propose a hierarchical planner designed for offline RL called PlanDQ. PlanDQ incorporates a diffusion-based planner at the high level, named D-Conductor, which guides the low-level policy through sub-goals. At the low level, we used a Q-learning based approach called the Q-Performer to accomplish these sub-goals. Our experimental results suggest that PlanDQ can achieve superior or competitive performance on D4RL continuous control benchmark tasks as well as AntMaze, Kitchen, and Calvin as long-horizon tasks.
- Abstract(参考訳): オフラインRLの最近の進歩にもかかわらず、広範囲のタスクで優れたパフォーマンスを達成できる統一アルゴリズムは存在しない。
オフライン \textit{value function learning} は、特に、タスクの地平線が大きくなるにつれて蓄積する信用割り当てや外挿エラーの解決が困難であるため、スパース・リワード、ロングホライゾンなタスクに苦しむ。
一方、ロングホライズンタスクでうまく機能するモデルは、特にゴール条件付きタスクのために設計されており、短期ホライズンで密度の高いリワードシナリオにおける値関数学習手法よりも一般的には劣る。
このギャップを埋めるため、PlanDQと呼ばれるオフラインRL用に設計された階層型プランナを提案する。
PlanDQはD-Conductorという名前の拡散型プランナーを高レベルに組み込んでおり、サブゴールを通じて低レベル政策を導く。
低レベルでは、これらのサブゴールを達成するためにQ-Performerと呼ばれるQ-ラーニングベースのアプローチを使用しました。
実験結果から,PlanDQはD4RL連続制御ベンチマークタスク,AntMaze,Kitchen,Calvinの長軸タスクにおいて,より優れた,あるいは競争的な性能を達成できることが示唆された。
関連論文リスト
- In-Context Decision Transformer: Reinforcement Learning via Hierarchical Chain-of-Thought [13.034968416139826]
In-context Decision Transformer (IDT) を提案する。
IDTは人間の意思決定の効率的な階層構造にインスパイアされている。
IDTは、現在のコンテキスト内RLメソッドよりも長い水平タスクの最先端を実現する。
論文 参考訳(メタデータ) (2024-05-31T08:38:25Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - IQL-TD-MPC: Implicit Q-Learning for Hierarchical Model Predictive
Control [8.374040635931298]
Inlicit Q-Learning (IQL)を用いて、モデル予測制御(TD-MPC)のための最先端の時間差学習を拡張するオフラインモデルベースRLアルゴリズムであるIQL-TD-MPCを導入する。
具体的には、時間的に抽象的なIQL-TD-MPCマネージャを事前トレーニングして、計画を通じて、ほぼサブゴールに対応する“インテリジェントな埋め込み”を予測する。
IQL-TD-MPCマネージャが生成するインテント埋め込みによる状態表現の増強は、市販のオフラインRLエージェントを著しく改善することを示した。
論文 参考訳(メタデータ) (2023-06-01T16:24:40Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Hierarchies of Planning and Reinforcement Learning for Robot Navigation [22.08479169489373]
多くのナビゲーションタスクでは、粗いフロアプランのように、高レベル(HL)タスク表現が利用可能である。
これまでの研究は、HL表現における経路計画からなる階層的アプローチによる効率的な学習を実証してきた。
本研究はHL表現のためのトレーニング可能な計画ポリシーを利用する新しい階層的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-23T07:18:15Z) - Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。
スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文 参考訳(メタデータ) (2021-01-16T20:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。