論文の概要: Score and Distribution Matching Policy: Advanced Accelerated Visuomotor Policies via Matched Distillation
- arxiv url: http://arxiv.org/abs/2412.09265v2
- Date: Fri, 13 Dec 2024 08:44:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 11:43:07.833119
- Title: Score and Distribution Matching Policy: Advanced Accelerated Visuomotor Policies via Matched Distillation
- Title(参考訳): Score and Distribution Matching Policy:Matched Distillation による高度覚醒薬政策
- Authors: Bofang Jia, Pengxiang Ding, Can Cui, Mingyang Sun, Pengfang Qian, Siteng Huang, Zhaoxin Fan, Donglin Wang,
- Abstract要約: 視覚的モビリティ学習のためのスコア・アンド・ディストリビューション・マッチング・ポリシー(SDM Policy)を提案する。
SDMポリシーは拡散ベースのポリシーを2段階最適化プロセスを通じて単一ステップジェネレータに変換する。
最先端のアクション品質を持ちながら、6倍の推論スピードアップを達成する。
- 参考スコア(独自算出の注目度): 29.90613565503628
- License:
- Abstract: Visual-motor policy learning has advanced with architectures like diffusion-based policies, known for modeling complex robotic trajectories. However, their prolonged inference times hinder high-frequency control tasks requiring real-time feedback. While consistency distillation (CD) accelerates inference, it introduces errors that compromise action quality. To address these limitations, we propose the Score and Distribution Matching Policy (SDM Policy), which transforms diffusion-based policies into single-step generators through a two-stage optimization process: score matching ensures alignment with true action distributions, and distribution matching minimizes KL divergence for consistency. A dual-teacher mechanism integrates a frozen teacher for stability and an unfrozen teacher for adversarial training, enhancing robustness and alignment with target distributions. Evaluated on a 57-task simulation benchmark, SDM Policy achieves a 6x inference speedup while having state-of-the-art action quality, providing an efficient and reliable framework for high-frequency robotic tasks.
- Abstract(参考訳): ビジュアルモビリティポリシー学習は、複雑なロボット軌道をモデル化することで知られる拡散ベースのポリシーのようなアーキテクチャで進歩してきた。
しかし、長い推論時間によって、リアルタイムのフィードバックを必要とする高周波制御タスクが妨げられる。
一貫性蒸留(CD)は推論を加速するが、行動品質を損なうエラーを導入する。
これらの制約に対処するために、スコア・アンド・ディストリビューション・マッチング・ポリシー(SDM Policy, Score and Distribution Matching Policy)を提案する。これは拡散ベースのポリシーを2段階の最適化プロセスを通じて単一ステップのジェネレータに変換するもので、スコア・マッチングは真のアクション・ディストリビューションとの整合性を確保し、分散・マッチングは一貫性のためのKL分散を最小化する。
二重教師機構は、安定のための凍結教師と、敵の訓練のための凍結しない教師を統合し、頑健性と目標分布との整合性を向上する。
SDM Policyは57タスクのシミュレーションベンチマークで評価され、最先端のアクション品質を持ちながら6倍の推論スピードアップを実現し、高周波ロボットタスクのための効率的で信頼性の高いフレームワークを提供する。
関連論文リスト
- Fast and Robust Visuomotor Riemannian Flow Matching Policy [15.341017260123927]
拡散に基づくビジュモータポリシーは、複雑なロボットタスクの学習に長けている。
RFMPは、フローマッチングの容易なトレーニングと高速な推論機能を継承するモデルである。
論文 参考訳(メタデータ) (2024-12-14T15:03:33Z) - CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。
自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文 参考訳(メタデータ) (2024-12-09T18:59:18Z) - One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation [31.534668378308822]
一貫性ポリシ(Consistency Policy)は、バイスモータロボット制御の学習のための拡散ポリシの高速かつ類似した代替手段である。
高速な推論速度により、Consistency Policyはリソース制約されたロボットセットアップで低レイテンシの決定を可能にする。
このパフォーマンスを実現するための重要な設計決定は、一貫性の目標の選択、初期サンプルのばらつきの低減、事前設定された連鎖ステップの選択である。
論文 参考訳(メタデータ) (2024-05-13T06:53:42Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。
本稿では,両経路の分岐点に位置する新しい手法を提案する。
我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。
より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文 参考訳(メタデータ) (2022-12-09T14:29:57Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。