論文の概要: Latent Weight Diffusion: Generating Policies from Trajectories
- arxiv url: http://arxiv.org/abs/2410.14040v1
- Date: Thu, 17 Oct 2024 21:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:09.097150
- Title: Latent Weight Diffusion: Generating Policies from Trajectories
- Title(参考訳): 潜在重量拡散:軌道からポリシーを生成する
- Authors: Shashank Hegde, Gautam Salhotra, Gaurav S. Sukhatme,
- Abstract要約: 遅延重み拡散(英語: Latent Weight Diffusion、LWD)は、拡散を利用して、軌道よりもむしろロボットタスクのポリシーに関する分布を学習する手法である。
LWDは、バニラマルチタスクポリシーよりも高い成功率を達成する一方で、推論時に最大18倍のモデルを使用する。
- 参考スコア(独自算出の注目度): 13.404962654299041
- License:
- Abstract: With the increasing availability of open-source robotic data, imitation learning has emerged as a viable approach for both robot manipulation and locomotion. Currently, large generalized policies are trained to predict controls or trajectories using diffusion models, which have the desirable property of learning multimodal action distributions. However, generalizability comes with a cost - namely, larger model size and slower inference. Further, there is a known trade-off between performance and action horizon for Diffusion Policy (i.e., diffusing trajectories): fewer diffusion queries accumulate greater trajectory tracking errors. Thus, it is common practice to run these models at high inference frequency, subject to robot computational constraints. To address these limitations, we propose Latent Weight Diffusion (LWD), a method that uses diffusion to learn a distribution over policies for robotic tasks, rather than over trajectories. Our approach encodes demonstration trajectories into a latent space and then decodes them into policies using a hypernetwork. We employ a diffusion denoising model within this latent space to learn its distribution. We demonstrate that LWD can reconstruct the behaviors of the original policies that generated the trajectory dataset. LWD offers the benefits of considerably smaller policy networks during inference and requires fewer diffusion model queries. When tested on the Metaworld MT10 benchmark, LWD achieves a higher success rate compared to a vanilla multi-task policy, while using models up to ~18x smaller during inference. Additionally, since LWD generates closed-loop policies, we show that it outperforms Diffusion Policy in long action horizon settings, with reduced diffusion queries during rollout.
- Abstract(参考訳): オープンソースのロボットデータの利用が増加し、模倣学習はロボット操作と移動の両方に有効なアプローチとして現れてきた。
現在、多モーダルな行動分布を学習する上で望ましい性質を持つ拡散モデルを用いて、制御や軌道を予測するために、大規模な一般化されたポリシーが訓練されている。
しかし、一般化可能性には、より大きいモデルサイズと遅い推論というコストが伴う。
さらに、拡散ポリシーの性能と作用地平線(つまり拡散軌跡の拡散)の間には、既知のトレードオフがある。
したがって、ロボット計算の制約を条件として、これらのモデルを高い推論周波数で実行するのが一般的である。
これらの制約に対処するために,ロボット作業の方針を軌道上ではなく拡散を用いて学習するLWD(Latent Weight Diffusion)を提案する。
提案手法では,実証軌道を潜在空間にエンコードし,それをハイパーネットワークを用いてポリシーに復号する。
我々は、この潜在空間内で拡散分極モデルを用いて、その分布を学習する。
我々は,LWDが軌道データセットを生成するオリジナルのポリシーの動作を再構築できることを実証した。
LWDは、推論中にかなり小さなポリシーネットワークの利点を提供し、拡散モデルクエリを少なくする。
Metaworld MT10ベンチマークでテストすると、LWDはバニラマルチタスクポリシーよりも成功率が高く、推論時にモデルを使用する場合、最大18倍小さい。
さらに,LWDは閉ループポリシーを生成するため,長時間の作用地平線設定において拡散ポリシーよりも優れ,ロールアウト時の拡散クエリが低減されることを示す。
関連論文リスト
- Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。
DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。
さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文 参考訳(メタデータ) (2024-06-02T09:32:28Z) - Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文 参考訳(メタデータ) (2024-05-30T05:04:33Z) - Intention-aware Denoising Diffusion Model for Trajectory Prediction [14.524496560759555]
軌道予測は、特に衝突回避システムにおいて、自律運転において不可欠な要素である。
本稿では,拡散モデルを用いて将来の軌道の分布を生成することを提案する。
Intention-aware denoising Diffusion Model (IDM)を提案する。
提案手法は,SDDデータセットでは13.83ピクセル,ETH/UCYデータセットでは0.36メートルのFDEで,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-03-14T09:05:25Z) - Don't Start from Scratch: Behavioral Refinement via Interpolant-based Policy Diffusion [16.44141792109178]
拡散モデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学習する。
学習対象のポリシーはガウスとは大きく異なり、少数の拡散ステップを使用すると性能が低下する可能性がある。
提案手法は,情報ソースポリシーの利点を示す理論的結果,新しい方法,実証的な知見の両方に寄与する。
論文 参考訳(メタデータ) (2024-02-25T12:19:21Z) - Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following [21.81411085058986]
Reward-gradient guided denoisingは、微分可能報酬関数と拡散モデルによって捕捉されたデータ分布下での確率の両方を最大化する軌道を生成する。
そこで我々は,勾配のない最適化と軌道デノゲーションを組み合わせたDiffusionESを提案する。
DiffusionESは、自動運転のための確立されたクローズドループ計画ベンチマークであるnuPlan上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-09T17:18:33Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。