論文の概要: Simple Hierarchical Planning with Diffusion
- arxiv url: http://arxiv.org/abs/2401.02644v1
- Date: Fri, 5 Jan 2024 05:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 16:09:06.245741
- Title: Simple Hierarchical Planning with Diffusion
- Title(参考訳): 拡散を伴う単純な階層的計画
- Authors: Chang Chen, Fei Deng, Kenji Kawaguchi, Caglar Gulcehre, Sungjin Ahn
- Abstract要約: 拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
- 参考スコア(独自算出の注目度): 54.48129192534653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based generative methods have proven effective in modeling
trajectories with offline datasets. However, they often face computational
challenges and can falter in generalization, especially in capturing temporal
abstractions for long-horizon tasks. To overcome this, we introduce the
Hierarchical Diffuser, a simple, fast, yet surprisingly effective planning
method combining the advantages of hierarchical and diffusion-based planning.
Our model adopts a "jumpy" planning strategy at the higher level, which allows
it to have a larger receptive field but at a lower computational cost -- a
crucial factor for diffusion-based planning methods, as we have empirically
verified. Additionally, the jumpy sub-goals guide our low-level planner,
facilitating a fine-tuning stage and further improving our approach's
effectiveness. We conducted empirical evaluations on standard offline
reinforcement learning benchmarks, demonstrating our method's superior
performance and efficiency in terms of training and planning speed compared to
the non-hierarchical Diffuser as well as other hierarchical planning methods.
Moreover, we explore our model's generalization capability, particularly on how
our method improves generalization capabilities on compositional
out-of-distribution tasks.
- Abstract(参考訳): 拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
しかし、それらはしばしば計算上の課題に直面し、特に長期的タスクの時間的抽象化を捉える際に、一般化を妨げうる。
そこで本研究では,階層型計画と拡散型計画を組み合わせた簡易かつ高速かつ驚くほど効果的な計画手法である階層型ディフューザを提案する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、より低い計算コストで -- 実験的に検証された拡散ベースの計画手法にとって重要な要素である。
さらに、jumpy sub-goalsは、低レベルのプランナーをガイドし、微調整ステージを促進し、アプローチの有効性をさらに向上します。
標準オフライン強化学習ベンチマークの実証評価を行い,非階層型ディフューザや他の階層型プランニング手法と比較して,トレーニングと計画速度の面で優れた性能と効率を示した。
さらに,本手法の一般化能力,特に構成外分布タスクにおける一般化能力の向上について検討した。
関連論文リスト
- Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - DIPPER: Direct Preference Optimization to Accelerate Primitive-Enabled Hierarchical Reinforcement Learning [36.50275602760051]
DIPPER: 原始許容階層型強化学習の高速化のための直接選好最適化について紹介する。
直接選好最適化を利用する効率的な階層的アプローチであり、より高度な政策を学ぶために、そして低レベルの政策を学ぶために強化学習を行う。
標準的な嗜好に基づくアプローチではなく、直接選好最適化を使用することで、計算効率の向上を享受している。
論文 参考訳(メタデータ) (2024-06-16T10:49:41Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Efficient Planning with Latent Diffusion [18.678459478837976]
時間的抽象化と効率的な計画は、オフライン強化学習において大きな課題となる。
潜在アクションスペースはよりフレキシブルなパラダイムを提供し、行動ポリシーサポート内でのみ可能なアクションをキャプチャします。
本稿では,潜伏行動空間の連続的表現学習と計画のための統合的フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-09-30T08:50:49Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - FAPE: a Constraint-based Planner for Generative and Hierarchical
Temporal Planning [2.771897351607068]
本稿では,ANMLモデリング言語における時間的特徴の多くを効率を損なうことなくサポートする,FAPEと呼ばれる時間的プランナを提案する。
FAPEの表現は、効率的な制御知識を提供する階層的な改善手法とフレキシブルなタイムラインをコヒーレントに統合する。
論文 参考訳(メタデータ) (2020-10-25T13:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。