論文の概要: TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration
- arxiv url: http://arxiv.org/abs/2512.15773v1
- Date: Sat, 13 Dec 2025 07:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.690377
- Title: TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration
- Title(参考訳): TS-DP:時相適応拡散政策加速のための強化投機的デコード
- Authors: Ye Li, Jiahe Feng, Yuan Meng, Kangye Ji, Chen Tang, Xinwan Wen, Shutao Xia, Zhi Wang, Wenwu Zhu,
- Abstract要約: 拡散ポリシーは、具体的制御が優れているが、高い推論遅延と計算コストに悩まされている。
時間認識強化に基づく投機的拡散政策(TS-DP)を提案する。
TS-DPは94%以上のドラフトで最大4.17倍高速な推論を実現し、推論周波数は25Hzに達した。
- 参考スコア(独自算出の注目度): 64.32072516882947
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion Policy (DP) excels in embodied control but suffers from high inference latency and computational cost due to multiple iterative denoising steps. The temporal complexity of embodied tasks demands a dynamic and adaptable computation mode. Static and lossy acceleration methods, such as quantization, fail to handle such dynamic embodied tasks, while speculative decoding offers a lossless and adaptive yet underexplored alternative for DP. However, it is non-trivial to address the following challenges: how to match the base model's denoising quality at lower cost under time-varying task difficulty in embodied settings, and how to dynamically and interactively adjust computation based on task difficulty in such environments. In this paper, we propose Temporal-aware Reinforcement-based Speculative Diffusion Policy (TS-DP), the first framework that enables speculative decoding for DP with temporal adaptivity. First, to handle dynamic environments where task difficulty varies over time, we distill a Transformer-based drafter to imitate the base model and replace its costly denoising calls. Second, an RL-based scheduler further adapts to time-varying task difficulty by adjusting speculative parameters to maintain accuracy while improving efficiency. Extensive experiments across diverse embodied environments demonstrate that TS-DP achieves up to 4.17 times faster inference with over 94% accepted drafts, reaching an inference frequency of 25 Hz and enabling real-time diffusion-based control without performance degradation.
- Abstract(参考訳): 拡散ポリシ(DP)は、具体的制御に優れるが、複数の反復的デノゲーションステップにより、高い推論遅延と計算コストに悩まされる。
具体化されたタスクの時間的複雑さは、動的で適応可能な計算モードを必要とする。
量子化のような静的かつ損失の少ない加速法は、そのような動的なエンボディされたタスクを処理できないが、投機的復号法は、DPの損失のない、適応性に欠ける代替手段を提供する。
しかし, 具体的環境において, 時間変化によるタスク難易度の下で, 基本モデルの騒音品質を低コストで一致させる方法や, タスク難易度に基づいて動的かつインタラクティブに計算を調整する方法など, 課題に対処することは容易ではない。
本稿では,時間適応性を持つDPの投機的復号を可能にする最初のフレームワークである,時間適応型強化に基づく投機的拡散政策(TS-DP)を提案する。
まず、タスクの難易度が時間とともに変化する動的な環境を扱うために、Transformerベースのドラフトラを蒸留してベースモデルを模倣し、コストのかかる呼び出しを置き換えます。
第2に、RLベースのスケジューラは、投機パラメータを調整し、効率を向上しつつ精度を維持することにより、時間変化の課題に適応する。
様々な実施環境における大規模な実験により、TS-DPは94%以上のドラフトで最大4.17倍の高速な推論を実現し、25Hzの推論周波数に達し、性能劣化のないリアルタイム拡散制御を可能にした。
関連論文リスト
- Dynamic Test-Time Compute Scaling in Control Policy: Difficulty-Aware Stochastic Interpolant Policy [40.173458986694584]
Difficulty-Aware Interpolant Policy (DA-SIP) は、ロボットコントローラがタスクの難易度に基づいて、リアルタイムで統合の地平線を適応的に調整できるフレームワークである。
DA-SIPは、最大計算ベースラインに匹敵するタスク成功率を維持しながら、合計時間の2.6-4.4倍の削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T22:46:42Z) - DeCo-SGD: Joint Optimization of Delay Staleness and Gradient Compression Ratio for Distributed SGD [5.618337879898599]
エンドツーエンドのレイテンシと低帯域幅ネットワークにおける分散機械学習は、大幅なスループット低下を経験する。
既存のアプローチでは、低帯域幅と高レイテンシを緩和するために、勾配圧縮と遅延集約を用いるのが一般的である。
実時間ネットワーク条件に基づいて圧縮率と安定度を動的に調整するDeCoSGDを提案する。
論文 参考訳(メタデータ) (2025-07-23T09:22:51Z) - Lightweight Task-Oriented Semantic Communication Empowered by Large-Scale AI Models [66.57755931421285]
大規模人工知能(LAI)モデルは、リアルタイム通信シナリオにおいて重大な課題を提起する。
本稿では,LAIモデルから知識を抽出・凝縮するために知識蒸留(KD)技術を活用することを提案する。
本稿では,反復推論の必要性を排除したプレストア圧縮機構を備えた高速蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-16T08:42:16Z) - Adaptive Inference-Time Scaling via Cyclic Diffusion Search [61.42700671176343]
適応的推論時間スケーリング-動的に計算量を調整するという課題について紹介する。
本稿では,適応型双方向サイクル拡散(ABCD)を提案する。
ABCDは、探索深度と終了を適応的に制御しながら、双方向拡散サイクルを通じて出力を洗練する。
論文 参考訳(メタデータ) (2025-05-20T07:31:38Z) - CANet: ChronoAdaptive Network for Enhanced Long-Term Time Series Forecasting under Non-Stationarity [0.0]
本稿では,スタイル転送技術に触発された新しいアーキテクチャであるChoronoAdaptive Network (CANet)を紹介する。
CANetの中核は非定常適応正規化モジュールであり、スタイルブレンディングゲートと適応インスタンス正規化(AdaIN)をシームレスに統合する。
実世界のデータセットに関する実験は、CANetが最先端の手法よりも優れていることを検証し、MSEの42%、MAEの22%を達成している。
論文 参考訳(メタデータ) (2025-04-24T20:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。