論文の概要: Speedup Patch: Learning a Plug-and-Play Policy to Accelerate Embodied Manipulation
- arxiv url: http://arxiv.org/abs/2603.20658v1
- Date: Sat, 21 Mar 2026 05:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.023766
- Title: Speedup Patch: Learning a Plug-and-Play Policy to Accelerate Embodied Manipulation
- Title(参考訳): Speedup Patch: 身体操作の高速化を目的としたプラグイン・アンド・プレイポリシの学習
- Authors: Zhichao Wu, Junyin Ye, Zhilong Zhang, Yihao Sun, Haoxin Lin, Jiaheng Luo, Haoxiang Ren, Lei Yuan, Yang Yu,
- Abstract要約: Speedup Patch (SuP)は、オフラインデータのみを使用してプラグインとプレイのアクセラレーションを可能にするポリシーに依存しないフレームワークである。
SuPは、独自の成功率を維持しながら、さまざまなポリシーに対して、全体的な1.8倍の実行スピードアップを実現している。
- 参考スコア(独自算出の注目度): 19.765462206627955
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While current embodied policies exhibit remarkable manipulation skills, their execution remains unsatisfactorily slow as they inherit the tardy pacing of human demonstrations. Existing acceleration methods typically require policy retraining or costly online interactions, limiting their scalability for large-scale foundation models. In this paper, we propose Speedup Patch (SuP), a lightweight, policy-agnostic framework that enables plug-and-play acceleration using solely offline data. SuP introduces an external scheduler that adaptively downsamples action chunks provided by embodied policies to eliminate redundancies. Specifically, we formalize the optimization of our scheduler as a Constrained Markov Decision Process (CMDP) aimed at maximizing efficiency without compromising task performance. Since direct success evaluation is infeasible in offline settings, SuP introduces World Model based state deviation as a surrogate metric to enforce safety constraints. By leveraging a learned world model as a virtual evaluator to predict counterfactual trajectories, the scheduler can be optimized via offline reinforcement learning. Empirical results on simulation benchmarks (Libero, Bigym) and real-world tasks validate that SuP achieves an overall 1.8x execution speedup for diverse policies while maintaining their original success rates.
- Abstract(参考訳): 現行の実施方針は、優れた操作スキルを示すが、その実行は、人間のデモンストレーションの荒々しいペーシングを継承するので、満足のいくほど遅いままである。
既存の加速法は、通常、ポリシーの再訓練やコストのかかるオンラインインタラクションを必要とし、大規模な基礎モデルのスケーラビリティを制限します。
本稿では,プラグイン・アンド・プレイアクセラレーションを実現する軽量でポリシーに依存しないフレームワークであるSpeedup Patch (SuP)を提案する。
SuPは、冗長性を排除するために、ポリシーを具体化したアクションチャンクを適応的にダウンサンプルする外部スケジューラを導入している。
具体的には,タスク性能を損なうことなく効率を最大化することを目的としたCMDP(Constrained Markov Decision Process)としてスケジューラの最適化を行う。
オフライン環境での直接の成功評価は不可能であるため、SuPは安全性の制約を強制するために、World Modelベースの状態偏差をサロゲート指標として導入する。
学習した世界モデルを仮想評価器として活用し、対物軌道を予測することにより、スケジューラをオフラインの強化学習により最適化することができる。
シミュレーションベンチマーク(Libero、Bigym)と実世界のタスクによる実証的な結果は、SuPがオリジナルの成功率を維持しながら、様々なポリシーに対して全体的な1.8倍の実行スピードアップを達成することを証明している。
関連論文リスト
- Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation [65.13627721310613]
平均速度ポリシー(MVP)は、平均速度場をモデル化し、最速のワンステップアクション生成を実現するための新しい生成ポリシー関数である。
MVPはRoomimicとOGBenchのいくつかの困難なロボット操作タスクに対して、最先端の成功率を達成する。
論文 参考訳(メタデータ) (2026-02-14T14:44:06Z) - Learning to Accelerate Vision-Language-Action Models through Adaptive Visual Token Caching [25.295588774254952]
我々は、学習可能なポリシー最適化問題として推論加速度を再構成する。
本稿では,タスク認識による意思決定プロセスを直接Vision-Language-Actionモデルに統合する新しいフレームワークを提案する。
提案手法は, 平均成功率を同時に向上させながら, 1.76倍のウォールクロック推定速度向上を実現する。
論文 参考訳(メタデータ) (2026-01-31T12:12:51Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - SpeedAug: Policy Acceleration via Tempo-Enriched Policy and RL Fine-Tuning [52.29534291796025]
強化学習(Reinforcement learning)は、より高速な実行のためにポリシーを適用する、有望なアプローチである。
タスク実行の高速化のために事前学習されたポリシーを効率的に適応するRLベースのポリシーアクセラレーションフレームワークであるSpeedAugを提案する。
論文 参考訳(メタデータ) (2025-11-24T04:25:47Z) - On-Device Diffusion Transformer Policy for Efficient Robot Manipulation [26.559546714450324]
Diffusion Policiesには、模倣学習によるロボット操作タスクが大幅に進歩している。
リソース制約のあるモバイルプラットフォームへの彼らの適用は、計算の非効率性と広範なメモリフットプリントのため、依然として困難である。
我々は,モバイルデバイス上でリアルタイムにデプロイするためのDiffusion Policiesを高速化する新しいフレームワークであるLightDPを提案する。
論文 参考訳(メタデータ) (2025-08-01T15:14:39Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。