論文の概要: Latent Diffusion Planning for Imitation Learning
- arxiv url: http://arxiv.org/abs/2504.16925v1
- Date: Wed, 23 Apr 2025 17:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 14:55:05.939381
- Title: Latent Diffusion Planning for Imitation Learning
- Title(参考訳): 模倣学習のための潜時拡散計画
- Authors: Amber Xie, Oleh Rybkin, Dorsa Sadigh, Chelsea Finn,
- Abstract要約: Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
- 参考スコア(独自算出の注目度): 78.56207566743154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in imitation learning has been enabled by policy architectures that scale to complex visuomotor tasks, multimodal distributions, and large datasets. However, these methods often rely on learning from large amount of expert demonstrations. To address these shortcomings, we propose Latent Diffusion Planning (LDP), a modular approach consisting of a planner which can leverage action-free demonstrations, and an inverse dynamics model which can leverage suboptimal data, that both operate over a learned latent space. First, we learn a compact latent space through a variational autoencoder, enabling effective forecasting of future states in image-based domains. Then, we train a planner and an inverse dynamics model with diffusion objectives. By separating planning from action prediction, LDP can benefit from the denser supervision signals of suboptimal and action-free data. On simulated visual robotic manipulation tasks, LDP outperforms state-of-the-art imitation learning approaches, as they cannot leverage such additional data.
- Abstract(参考訳): 模倣学習の最近の進歩は、複雑なビジュモータタスク、マルチモーダル分布、大規模データセットにスケールするポリシーアーキテクチャによって実現されている。
しかし、これらの手法は、多くの専門家によるデモンストレーションから学ぶことに依存することが多い。
これらの欠点に対処するため、我々は、アクションフリーなデモンストレーションを活用可能なプランナーと、学習された潜在空間上で動作可能な最適データを活用する逆ダイナミクスモデルからなるモジュラーアプローチであるLatent Diffusion Planning (LDP)を提案する。
まず、可変オートエンコーダを用いてコンパクトな潜伏空間を学習し、画像ベース領域における将来の状態を効果的に予測する。
そして,拡散目標を持つプランナーと逆動力学モデルを訓練する。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LCPはそのような追加データを活用することができないため、最先端の模倣学習アプローチより優れている。
関連論文リスト
- Dynamic Path Navigation for Motion Agents with LLM Reasoning [69.5875073447454]
大規模言語モデル(LLM)は、強力な一般化可能な推論と計画能力を示している。
本研究では,LLMのゼロショットナビゲーションと経路生成機能について,データセットの構築と評価プロトコルの提案により検討する。
このようなタスクが適切に構成されている場合、現代のLCMは、目標に到達するために生成された動きでナビゲーションを自律的に精錬しながら障害を回避するためのかなりの計画能力を示す。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - CLAD: Constrained Latent Action Diffusion for Vision-Language Procedure Planning [11.4414301678724]
教師ビデオにおける視覚言語プロシージャ計画のための制約付き潜時行動拡散モデルを提案する。
本手法では, 変動オートエンコーダを用いて, 動作と観測の潜在表現を制約として学習する。
提案手法は最先端の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2025-03-09T14:31:46Z) - Imitation Learning with Limited Actions via Diffusion Planners and Deep Koopman Controllers [23.292429025366417]
本稿では,逆ダイナミクスコントローラのアクションデータ効率向上を目的としたプランテイン制御フレームワークを提案する。
具体的には、Deep Koopman Operatorフレームワークを用いて力学系をモデル化し、観測のみの軌跡を用いて潜在動作表現を学習する。
この潜在表現は、線形アクションデコーダを用いて実高次元連続的なアクションに効果的にマッピングすることができる。
論文 参考訳(メタデータ) (2024-10-10T03:33:57Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Motion Planning Diffusion: Learning and Planning of Robot Motions with Diffusion Models [14.171207239507789]
新しい計画問題の先駆者として軌道生成モデルを学習することが極めて望ましい。
本研究では,移動計画問題のブートストラッピングに先立って,学習拡散モデルを提案する。
本研究では,ロボット運動の高次元軌跡分布を符号化する拡散モデルについて検討した。
論文 参考訳(メタデータ) (2023-08-03T06:36:21Z) - DiMSam: Diffusion Models as Samplers for Task and Motion Planning under Partial Observability [58.75803543245372]
タスク・アンド・モーション・プランニング(TAMP)アプローチは多段階自律ロボット操作の計画に適している。
本稿では,TAMPシステムを用いた拡散モデルの構築により,これらの制限を克服することを提案する。
古典的TAMP, 生成モデリング, 潜伏埋め込みの組み合わせによって, 多段階制約に基づく推論が可能となることを示す。
論文 参考訳(メタデータ) (2023-06-22T20:40:24Z) - PDPP: Projected Diffusion for Procedure Planning in Instructional Videos [18.984980596601513]
本研究では,現在の視覚的観察と目的を考慮に入れた計画(一連の行動)の実現を目的とした指導ビデオにおけるプロシージャ計画の課題について検討する。
以前の研究は、これをシーケンスモデリングの問題とみなし、中間的な視覚観察または言語指示を監督として活用した。
自己回帰的に計画することによる中間的監視アノテーションやエラーの蓄積を回避するため,拡散型フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T10:50:16Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。