論文の概要: Latent Weight Diffusion: Generating reactive policies instead of trajectories
- arxiv url: http://arxiv.org/abs/2410.14040v2
- Date: Wed, 28 May 2025 05:15:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:26.730613
- Title: Latent Weight Diffusion: Generating reactive policies instead of trajectories
- Title(参考訳): 潜在重量拡散 - 軌跡の代わりに反応性ポリシーを生成する
- Authors: Shashank Hegde, Satyajeet Das, Gautam Salhotra, Gaurav S. Sukhatme,
- Abstract要約: ロボット作業のクローズドループポリシを生成するために,Latent Weight Diffusionを提案する。
LWDは、作用地平線が長い場合、拡散政策よりも成功率が高い。
LWDはDPに匹敵するマルチタスク性能を達成し、推論時間FLOPSの1/45しか必要としない。
- 参考スコア(独自算出の注目度): 12.270795590154489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing availability of open-source robotic data, imitation learning has emerged as a viable approach for both robot manipulation and locomotion. Currently, large generalized policies are trained to predict controls or trajectories using diffusion models, which have the desirable property of learning multimodal action distributions. However, generalizability comes with a cost, namely, larger model size and slower inference. This is especially an issue for robotic tasks that require high control frequency. Further, there is a known trade-off between performance and action horizon for Diffusion Policy (DP), a popular model for generating trajectories: fewer diffusion queries accumulate greater trajectory tracking errors. For these reasons, it is common practice to run these models at high inference frequency, subject to robot computational constraints. To address these limitations, we propose Latent Weight Diffusion (LWD), a method that uses diffusion to generate closed-loop policies (weights for neural policies) for robotic tasks, rather than generating trajectories. Learning the behavior distribution through parameter space over trajectory space offers two key advantages: longer action horizons (fewer diffusion queries) & robustness to perturbations while retaining high performance; and a lower inference compute cost. To this end, we show that LWD has higher success rates than DP when the action horizon is longer and when stochastic perturbations exist in the environment. Furthermore, LWD achieves multitask performance comparable to DP while requiring just ~1/45th of the inference-time FLOPS
- Abstract(参考訳): オープンソースのロボットデータの利用が増加し、模倣学習はロボット操作と移動の両方に有効なアプローチとして現れてきた。
現在、多モーダルな行動分布を学習する上で望ましい性質を持つ拡散モデルを用いて、制御や軌道を予測するために、大規模な一般化されたポリシーが訓練されている。
しかし、一般化可能性には、より大きいモデルサイズと遅い推論というコストが伴う。
これは特に、高い制御周波数を必要とするロボットタスクの問題である。
さらに、拡散ポリシー(DP)のパフォーマンスと行動の地平線の間には、トラジェクトリを生成する一般的なモデルがある。
これらの理由から,ロボット計算の制約を条件として,これらのモデルを高い推論周波数で実行することが一般的である。
これらの制約に対処するために,ロボット作業のための閉ループポリシー(神経ポリシーの重み)を生成するために拡散を用いた遅延重み拡散(LWD)を提案する。
軌道空間上のパラメータ空間を通しての挙動分布の学習には、2つの大きな利点がある。
この結果から,LWDは動作地平線が長く,環境に確率的摂動が存在する場合,DPよりも高い成功率を示す。
さらに、LWDは、推測時間FLOPSの1/45分の1しか必要とせず、DPに匹敵するマルチタスク性能を達成する
関連論文リスト
- Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
制約付き拡散予測制御(DPCC)
トレーニングデータから逸脱可能な、明示的な状態と行動制約を持つ拡散制御アルゴリズム。
DPCCは,学習した制御タスクの性能を維持しつつ,新しいテスト時間制約を満たす上で,既存の手法よりも優れるロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving [38.867860153968394]
拡散モデルは、ロボット政策学習の強力な生成技術として登場した。
本稿では,従来のマルチモードアンカーを取り入れ,拡散スケジュールを切り離す,新たな切り離された拡散ポリシーを提案する。
提案したモデルであるDiffusionDriveは、バニラ拡散ポリシーと比較して10ドル程度のデノナイジングステップの削減を実証している。
論文 参考訳(メタデータ) (2024-11-22T18:59:47Z) - Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文 参考訳(メタデータ) (2024-05-30T05:04:33Z) - Intention-aware Denoising Diffusion Model for Trajectory Prediction [14.524496560759555]
軌道予測は、特に衝突回避システムにおいて、自律運転において不可欠な要素である。
本稿では,拡散モデルを用いて将来の軌道の分布を生成することを提案する。
Intention-aware denoising Diffusion Model (IDM)を提案する。
提案手法は,SDDデータセットでは13.83ピクセル,ETH/UCYデータセットでは0.36メートルのFDEで,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-03-14T09:05:25Z) - Don't Start from Scratch: Behavioral Refinement via Interpolant-based Policy Diffusion [16.44141792109178]
拡散モデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学習する。
学習対象のポリシーはガウスとは大きく異なり、少数の拡散ステップを使用すると性能が低下する可能性がある。
提案手法は,情報ソースポリシーの利点を示す理論的結果,新しい方法,実証的な知見の両方に寄与する。
論文 参考訳(メタデータ) (2024-02-25T12:19:21Z) - Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following [21.81411085058986]
Reward-gradient guided denoisingは、微分可能報酬関数と拡散モデルによって捕捉されたデータ分布下での確率の両方を最大化する軌道を生成する。
そこで我々は,勾配のない最適化と軌道デノゲーションを組み合わせたDiffusionESを提案する。
DiffusionESは、自動運転のための確立されたクローズドループ計画ベンチマークであるnuPlan上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-09T17:18:33Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。