論文の概要: Training-Free Imitation Learning with Closed-Form Diffusion Policies
- arxiv url: http://arxiv.org/abs/2606.01238v1
- Date: Sun, 31 May 2026 13:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.462996
- Title: Training-Free Imitation Learning with Closed-Form Diffusion Policies
- Title(参考訳): 閉鎖型拡散政策を用いた学習自由模倣学習
- Authors: Raghav Mishra, Ian R. Manchester,
- Abstract要約: そこで我々は,模擬学習のための学習自由拡散型政策のクラスであるClosed-Form Diffusion Policiesを紹介する。
ハードウェア実験において,モバイルCPUを用いたリアルタイム推論でCFDPをデプロイし,データセットから直接ミリ秒で模倣を実現できることを示す。
本稿では, クローズドフォーム拡散ポリシが, 事前学習した神経拡散ポリシをデータ駆動型推論時間編集可能なプリミティブとして機能することを示す。
- 参考スコア(独自算出の注目度): 3.151184728006369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While diffusion-based policies have impressive performance and expressivity, their long offline training slows down the data collection and policy deployment loop. We introduce Closed-Form Diffusion Policies, a class of training-free diffusion-based policies for imitation learning using the closed-form score derived from the demonstration dataset. We deploy CFDP with real-time inference with a mobile CPU in hardware experiments, showing it can successfully perform imitation directly from the dataset in milliseconds and with faster inference than neural diffusion policies. In experiments on imitation learning benchmarks, we show that CFDP is competitive against neural baselines that require hours of training, providing a favorable tradeoff between training time and performance. Finally, we show how closed-form diffusion policies act as a composable primitive that enables data-driven inference-time editing of pre-trained neural diffusion policies, including policy guidance and novel demonstration augmentation.
- Abstract(参考訳): 拡散ベースのポリシーは優れたパフォーマンスと表現力を持っているが、長いオフライントレーニングはデータ収集とポリシー展開のループを遅くする。
実演データセットから得られたクローズドフォームスコアを用いて,模擬学習のための学習自由拡散型ポリシーのクラスであるClosed-Form Diffusion Policiesを紹介する。
ハードウェア実験において,モバイルCPUを用いたリアルタイム推論でCFDPをデプロイし,ミリ秒でデータセットから直接,ニューラルネットワークの拡散ポリシよりも高速な推論で再現を実現できることを示す。
模倣学習ベンチマークの実験では、CFDPは、トレーニング時間とパフォーマンスの間の良好なトレードオフを提供するために、数時間のトレーニングを必要とする神経ベースラインと競合することを示した。
最後に、クローズドフォーム拡散ポリシーが、事前訓練された神経拡散ポリシーのデータ駆動推論時編集を可能にする構成可能なプリミティブとして機能しているかを示す。
関連論文リスト
- One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文 参考訳(メタデータ) (2024-05-30T05:04:33Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Score Regularized Policy Optimization through Diffusion Behavior [25.926641622408752]
オフライン強化学習の最近の進歩は拡散モデリングの潜在可能性を明らかにしている。
本稿では,批判モデルと事前学習した拡散行動モデルから,効率的な決定論的推論ポリシーを抽出することを提案する。
本手法は,移動作業における各種拡散法と比較して,動作サンプリング速度を25倍以上に向上させる。
論文 参考訳(メタデータ) (2023-10-11T08:31:26Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。