論文の概要: Simple Hierarchical Planning with Diffusion
- arxiv url: http://arxiv.org/abs/2401.02644v1
- Date: Fri, 5 Jan 2024 05:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 16:09:06.245741
- Title: Simple Hierarchical Planning with Diffusion
- Title(参考訳): 拡散を伴う単純な階層的計画
- Authors: Chang Chen, Fei Deng, Kenji Kawaguchi, Caglar Gulcehre, Sungjin Ahn
- Abstract要約: 拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
- 参考スコア(独自算出の注目度): 54.48129192534653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based generative methods have proven effective in modeling
trajectories with offline datasets. However, they often face computational
challenges and can falter in generalization, especially in capturing temporal
abstractions for long-horizon tasks. To overcome this, we introduce the
Hierarchical Diffuser, a simple, fast, yet surprisingly effective planning
method combining the advantages of hierarchical and diffusion-based planning.
Our model adopts a "jumpy" planning strategy at the higher level, which allows
it to have a larger receptive field but at a lower computational cost -- a
crucial factor for diffusion-based planning methods, as we have empirically
verified. Additionally, the jumpy sub-goals guide our low-level planner,
facilitating a fine-tuning stage and further improving our approach's
effectiveness. We conducted empirical evaluations on standard offline
reinforcement learning benchmarks, demonstrating our method's superior
performance and efficiency in terms of training and planning speed compared to
the non-hierarchical Diffuser as well as other hierarchical planning methods.
Moreover, we explore our model's generalization capability, particularly on how
our method improves generalization capabilities on compositional
out-of-distribution tasks.
- Abstract(参考訳): 拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
しかし、それらはしばしば計算上の課題に直面し、特に長期的タスクの時間的抽象化を捉える際に、一般化を妨げうる。
そこで本研究では,階層型計画と拡散型計画を組み合わせた簡易かつ高速かつ驚くほど効果的な計画手法である階層型ディフューザを提案する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、より低い計算コストで -- 実験的に検証された拡散ベースの計画手法にとって重要な要素である。
さらに、jumpy sub-goalsは、低レベルのプランナーをガイドし、微調整ステージを促進し、アプローチの有効性をさらに向上します。
標準オフライン強化学習ベンチマークの実証評価を行い,非階層型ディフューザや他の階層型プランニング手法と比較して,トレーニングと計画速度の面で優れた性能と効率を示した。
さらに,本手法の一般化能力,特に構成外分布タスクにおける一般化能力の向上について検討した。
関連論文リスト
- Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Locally Optimal Descent for Dynamic Stepsize Scheduling [45.6809308002043]
本稿では,段階的スケジュールのマニュアルと時間的チューニングを簡略化することを目的とした,理論に基づく新しい動的学習スケジューリング手法を提案する。
本手法は,スムーズな勾配方向の局所最適練習速度を推定することに基づく。
提案手法は,既存手法と比較して最小限のチューニングが必要であることが示唆された。
論文 参考訳(メタデータ) (2023-11-23T09:57:35Z) - Efficient Planning with Latent Diffusion [18.678459478837976]
時間的抽象化と効率的な計画は、オフライン強化学習において大きな課題となる。
潜在アクションスペースはよりフレキシブルなパラダイムを提供し、行動ポリシーサポート内でのみ可能なアクションをキャプチャします。
本稿では,潜伏行動空間の連続的表現学習と計画のための統合的フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-09-30T08:50:49Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better
Generalization in Reinforcement Learning [88.38772200150387]
Skipperは、タスク時間を利用して、新しい状況下でスキルを学ぶモデルベースの強化学習エージェントである。
与えられたものをより小さく、より管理しやすいサブタスクに自動的に一般化し、スパースな意思決定を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - FAPE: a Constraint-based Planner for Generative and Hierarchical
Temporal Planning [2.771897351607068]
本稿では,ANMLモデリング言語における時間的特徴の多くを効率を損なうことなくサポートする,FAPEと呼ばれる時間的プランナを提案する。
FAPEの表現は、効率的な制御知識を提供する階層的な改善手法とフレキシブルなタイムラインをコヒーレントに統合する。
論文 参考訳(メタデータ) (2020-10-25T13:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。