論文の概要: Efficient Planning with Latent Diffusion
- arxiv url: http://arxiv.org/abs/2310.00311v1
- Date: Sat, 30 Sep 2023 08:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 05:11:25.378405
- Title: Efficient Planning with Latent Diffusion
- Title(参考訳): 潜時拡散による効率的な計画法
- Authors: Wenhao Li
- Abstract要約: 時間的抽象化と効率的な計画は、オフライン強化学習において大きな課題となる。
潜在アクションスペースはよりフレキシブルなパラダイムを提供し、行動ポリシーサポート内でのみ可能なアクションをキャプチャします。
本稿では,潜伏行動空間の連続的表現学習と計画のための統合的フレームワークについて述べる。
- 参考スコア(独自算出の注目度): 18.678459478837976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal abstraction and efficient planning pose significant challenges in
offline reinforcement learning, mainly when dealing with domains that involve
temporally extended tasks and delayed sparse rewards. Existing methods
typically plan in the raw action space and can be inefficient and inflexible.
Latent action spaces offer a more flexible paradigm, capturing only possible
actions within the behavior policy support and decoupling the temporal
structure between planning and modeling. However, current latent-action-based
methods are limited to discrete spaces and require expensive planning. This
paper presents a unified framework for continuous latent action space
representation learning and planning by leveraging latent, score-based
diffusion models. We establish the theoretical equivalence between planning in
the latent action space and energy-guided sampling with a pretrained diffusion
model and incorporate a novel sequence-level exact sampling method. Our
proposed method, $\texttt{LatentDiffuser}$, demonstrates competitive
performance on low-dimensional locomotion control tasks and surpasses existing
methods in higher-dimensional tasks.
- Abstract(参考訳): 時間的抽象化と効率的な計画は、主に時間的拡張タスクとスパース報酬の遅延を含むドメインを扱う場合、オフライン強化学習において重大な課題となる。
既存の方法は、通常、生のアクション空間で計画し、非効率で非柔軟である。
潜在アクション空間はより柔軟なパラダイムを提供し、行動ポリシーサポート内で可能なアクションのみをキャプチャし、計画とモデリングの間の時間構造を分離する。
しかし、現在の潜在アクションベースの手法は離散空間に限定され、高価な計画を必要とする。
本稿では,持続的潜在的行動空間表現の学習と計画のための,潜在的スコアベース拡散モデルを活用した統一フレームワークを提案する。
我々は,遅延行動空間における計画と事前学習拡散モデルによるエネルギー誘導サンプリングの理論的等価性を確立し,新しいシーケンスレベルの精密サンプリング手法を取り入れた。
提案手法は,低次元移動制御タスクにおける競合性能を実証し,高次元タスクにおける既存手法を克服する。
関連論文リスト
- Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Dynamic Obstacle Avoidance through Uncertainty-Based Adaptive Planning with Diffusion [40.76697924496143]
本稿では,行動予測の不確実性に基づいた適応的生成計画手法を提案する。
本手法は, 衝突回避性能を維持しつつ, 頻繁で計算コストが高く, 冗長な再計画の必要性を最小限に抑える。
論文 参考訳(メタデータ) (2024-09-25T14:03:58Z) - Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - Simple Hierarchical Planning with Diffusion [54.48129192534653]
拡散に基づく生成法は、オフラインデータセットによる軌跡のモデリングに有効であることが証明されている。
階層型および拡散型プランニングの利点を組み合わせた高速かつ驚くほど効果的な計画手法である階層型ディフューザを導入する。
我々のモデルは、より高いレベルで「ジャンピー」な計画戦略を採用しており、より大きな受容場を持つことができるが、計算コストは低い。
論文 参考訳(メタデータ) (2024-01-05T05:28:40Z) - Unified Task and Motion Planning using Object-centric Abstractions of
Motion Constraints [56.283944756315066]
本稿では,タスクとモーションプランニングを一つの検索に統一するTAMP手法を提案する。
我々のアプローチは、オフザシェルフAIサーチの計算効率を活用して、物理的に実現可能な計画が得られるような、オブジェクト中心の動作制約の抽象化に基づいている。
論文 参考訳(メタデータ) (2023-12-29T14:00:20Z) - Diffused Task-Agnostic Milestone Planner [13.042155799536657]
本稿では,拡散に基づく生成系列モデルを用いて,潜在空間における一連のマイルストーンを計画する手法を提案する。
提案手法は,マイルストーンの制御関連低次元潜在表現を学習し,長期計画と視覚に基づく制御を効率的に行うことができる。
論文 参考訳(メタデータ) (2023-12-06T10:09:22Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Leveraging Scene Embeddings for Gradient-Based Motion Planning in Latent
Space [24.95320093765214]
AMP-LSは、従来の計画ベースラインを桁違いの速度で上回りながら、新しい複雑なシーンで計画できる。
実世界の動的シーンにおける閉ループ計画を実現するのに十分な速度が得られた。
論文 参考訳(メタデータ) (2023-03-06T18:49:39Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。