Fugu-MT 論文翻訳(概要): Block-wise Adaptive Caching for Accelerating Diffusion Policy

論文の概要: Block-wise Adaptive Caching for Accelerating Diffusion Policy

arxiv url: http://arxiv.org/abs/2506.13456v1
Date: Mon, 16 Jun 2025 13:14:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:48.485915
Title: Block-wise Adaptive Caching for Accelerating Diffusion Policy
Title（参考訳）: 拡散促進のためのブロックワイド適応キャッシング
Authors: Kangye Ji, Yuan Meng, Hanyun Cui, Ye Li, Shengjia Hua, Lei Chen, Zhi Wang,
Abstract要約: Block-wise Adaptive Caching(BAC)は、中間動作特徴をキャッシュすることで拡散ポリシーを高速化する手法である。 BACは、ロボットベンチマークで無償で最大3倍の推論スピードアップを達成する。
参考スコア（独自算出の注目度）: 10.641633189595302
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion Policy has demonstrated strong visuomotor modeling capabilities, but its high computational cost renders it impractical for real-time robotic control. Despite huge redundancy across repetitive denoising steps, existing diffusion acceleration techniques fail to generalize to Diffusion Policy due to fundamental architectural and data divergences. In this paper, we propose Block-wise Adaptive Caching(BAC), a method to accelerate Diffusion Policy by caching intermediate action features. BAC achieves lossless action generation acceleration by adaptively updating and reusing cached features at the block level, based on a key observation that feature similarities vary non-uniformly across timesteps and locks. To operationalize this insight, we first propose the Adaptive Caching Scheduler, designed to identify optimal update timesteps by maximizing the global feature similarities between cached and skipped features. However, applying this scheduler for each block leads to signiffcant error surges due to the inter-block propagation of caching errors, particularly within Feed-Forward Network (FFN) blocks. To mitigate this issue, we develop the Bubbling Union Algorithm, which truncates these errors by updating the upstream blocks with signiffcant caching errors before downstream FFNs. As a training-free plugin, BAC is readily integrable with existing transformer-based Diffusion Policy and vision-language-action models. Extensive experiments on multiple robotic benchmarks demonstrate that BAC achieves up to 3x inference speedup for free.
Abstract（参考訳）: 拡散政策は強力な振動子モデリング能力を示したが、その計算コストが高いため、リアルタイムロボット制御には実用的ではない。反復的なデノゲーションステップにまたがる大きな冗長性にもかかわらず、既存の拡散加速技術は、基本的なアーキテクチャとデータのばらつきのために拡散ポリシーに一般化できない。本稿では,中間動作特徴をキャッシュすることで拡散ポリシーを高速化するBlock-wise Adaptive Caching(BAC)を提案する。 BACは、ブロックレベルでキャッシュされた機能を適応的に更新し、再利用することで、ロスレスアクション生成の加速を達成する。この知見を運用するために、キャッシュされた機能とスキップされた機能とのグローバルな類似性を最大化することにより、最適な更新タイムステップを特定するために設計されたAdaptive Caching Schedulerを提案する。しかし、このスケジューラを各ブロックに適用すると、特にFeed-Forward Network(FFN)ブロック内のキャッシュエラーのブロック間伝播によるシグニフカントエラーが急増する。この問題を軽減するために,下流FFNの前に上流ブロックをキャッシュエラーで更新することで,これらのエラーを解消するBubbling Union Algorithmを開発した。 BACは、トレーニングフリーのプラグインとして、既存のトランスフォーマーベースの拡散ポリシーや視覚言語アクションモデルと容易に統合可能である。複数のロボットベンチマークに関する大規模な実験は、BACが最大3倍の推論スピードアップを無償で達成していることを示している。

関連論文リスト

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [58.044803442346115]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおいてブレークスルーを実現するが、推論中に計算の複雑さやメモリオーバーヘッドに悩まされる。 Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークであり、遅延双方向スパースキャッシングを経由するスパースアテンションである。
論文参考訳（メタデータ） (2025-08-04T16:14:03Z)
Sortblock: Similarity-Aware Feature Reuse for Diffusion Model [9.749736545966694]
Diffusion Transformer (DiTs) は顕著な生成能を示した。 DiTのシーケンシャルな denoising プロセスは、高い推論遅延をもたらす。トレーニング不要な推論アクセラレーションフレームワークであるSoltblockを提案する。
論文参考訳（メタデータ） (2025-08-01T08:10:54Z)
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation [46.57781555466333]
DiT (Diffusion Transformer) は強力な生成モデルであるが、その反復構造と深部変圧器スタックのために計算集約性を維持している。 FastCacheは、DiT推論を高速化する隠れ状態レベルのキャッシュおよび圧縮フレームワークである。複数のDiT変種にまたがる実証的な評価は、レイテンシとメモリ使用量の大幅な削減を示している。
論文参考訳（メタデータ） (2025-05-26T05:58:49Z)
AB-Cache: Training-Free Acceleration of Diffusion Models via Adams-Bashforth Cached Feature Reuse [19.13826316844611]
拡散モデルは生成的タスクにおいて顕著に成功したが、反復的認知過程は推論を遅くする。本稿では,第2次Adams-Bashforth法を用いて認知過程を解析することにより理論的に理解する。キャッシュされた結果を直接再利用する代わりに,拡散モデルに対するキャッシングに基づく新しい高速化手法を提案する。
論文参考訳（メタデータ） (2025-04-13T08:29:58Z)
Exposure Bias Reduction for Enhancing Diffusion Transformer Feature Caching [7.393824353099595]
Diffusion Transformer (DiT) は優れた生成機能を備えているが、計算複雑性が高いため大きな課題に直面している。拡散過程のSNRに対するキャッシングの影響を解析する。非露出バイアスを整合させる共同キャッシュ戦略であるEBキャッシュを導入する。
論文参考訳（メタデータ） (2025-03-10T09:49:18Z)
QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。 DiTには、計算コストやメモリコストの増大など、大きな欠点がある。我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文参考訳（メタデータ） (2025-03-09T10:31:51Z)
ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2～10倍に向上することを示した。
論文参考訳（メタデータ） (2024-10-23T15:24:54Z)
HarmoniCa: Harmonizing Training and Inference for Better Feature Caching in Diffusion Transformer Acceleration [31.982294870690925]
我々はHarmoniCaと呼ばれる新しい学習ベースのキャッシュフレームワークを開発した。 SDT(Step-Wise Denoising Training)を取り入れて、Denoisingプロセスの継続性を保証する。私たちのフレームワークは40%以上のレイテンシ削減(理論的スピードアップ)とPixArt-$alpha$のパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2024-10-02T16:34:29Z)
Token Caching for Diffusion Transformer Acceleration [30.437462937127773]
TokenCacheは拡散変圧器の訓練後高速化手法である。推論ステップ間でトークン間の冗長な計算を削減します。 TokenCacheは,拡散変圧器における生成品質と推論速度のトレードオフを効果的に実現していることを示す。
論文参考訳（メタデータ） (2024-09-27T08:05:34Z)
Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。 3つの戦略を含む新しい量子化フレームワークを導入する。このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文参考訳（メタデータ） (2024-07-28T17:46:15Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
Harnessing Wireless Channels for Scalable and Privacy-Preserving Federated Learning [56.94644428312295]
無線接続は、フェデレートラーニング(FL)の実現に有効である Channel randomnessperturbs 各ワーカはモデル更新をインバージョンし、複数のワーカはバンド幅に大きな干渉を発生させる。 A-FADMMでは、すべてのワーカーがモデル更新をアナログ送信を介して単一のチャンネルを使用してパラメータサーバにアップロードする。これは通信帯域幅を節約するだけでなく、各ワーカーの正確なモデル更新軌跡を任意の盗聴者から隠蔽する。
論文参考訳（メタデータ） (2020-07-03T16:31:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。