論文の概要: Accelerating Controllable Generation via Hybrid-grained Cache
- arxiv url: http://arxiv.org/abs/2511.11031v1
- Date: Fri, 14 Nov 2025 07:35:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.479628
- Title: Accelerating Controllable Generation via Hybrid-grained Cache
- Title(参考訳): ハイブリッド粒径キャッシュによる制御可能生成の高速化
- Authors: Lin Liu, Huixia Ben, Shuo Wang, Jinda Lu, Junxiang Qiu, Shengeng Tang, Yanbin Hao,
- Abstract要約: 制御可能な生成モデルは、合成視覚コンテンツのリアリズムを改善するために広く利用されている。
本稿では,異なる計算段階における粒度の異なるキャッシュ戦略を採用することにより,計算オーバーヘッドを低減するHybrid-Grained Cache (HGC) 手法を提案する。
我々は,4つのベンチマークデータセットにおけるHGCの有効性,特に生成効率と視覚的品質のバランスをとる上での利点を検証する。
- 参考スコア(独自算出の注目度): 32.75230327622271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllable generative models have been widely used to improve the realism of synthetic visual content. However, such models must handle control conditions and content generation computational requirements, resulting in generally low generation efficiency. To address this issue, we propose a Hybrid-Grained Cache (HGC) approach that reduces computational overhead by adopting cache strategies with different granularities at different computational stages. Specifically, (1) we use a coarse-grained cache (block-level) based on feature reuse to dynamically bypass redundant computations in encoder-decoder blocks between each step of model reasoning. (2) We design a fine-grained cache (prompt-level) that acts within a module, where the fine-grained cache reuses cross-attention maps within consecutive reasoning steps and extends them to the corresponding module computations of adjacent steps. These caches of different granularities can be seamlessly integrated into each computational link of the controllable generation process. We verify the effectiveness of HGC on four benchmark datasets, especially its advantages in balancing generation efficiency and visual quality. For example, on the COCO-Stuff segmentation benchmark, our HGC significantly reduces the computational cost (MACs) by 63% (from 18.22T to 6.70T), while keeping the loss of semantic fidelity (quantized performance degradation) within 1.5%.
- Abstract(参考訳): 制御可能な生成モデルは、合成視覚コンテンツのリアリズムを改善するために広く利用されている。
しかし、そのようなモデルは制御条件やコンテンツ生成の計算要求を処理しなければなりません。
この問題に対処するために,異なる計算段階における粒度の異なるキャッシュ戦略を採用することにより,計算オーバーヘッドを低減するHybrid-Grained Cache (HGC) アプローチを提案する。
具体的には,(1)モデル推論の各ステップ間のエンコーダ・デコーダブロックにおける冗長な計算を動的にバイパスするために,機能再利用に基づく粗粒度キャッシュ(ブロックレベル)を用いる。
2) モジュール内で動作する細粒度キャッシュ (promptレベル) を設計し, 細粒度キャッシュは連続的な推論ステップ内で相互アテンションマップを再利用し, 隣接するステップの対応するモジュール計算に拡張する。
これらの粒度の異なるキャッシュは、制御可能な生成プロセスの各計算リンクにシームレスに統合することができる。
我々は,4つのベンチマークデータセットにおけるHGCの有効性,特に生成効率と視覚的品質のバランスをとる上での利点を検証する。
例えば、COCO-Stuffセグメンテーションのベンチマークでは、HGCは計算コスト(MAC)を63%削減し(18.22Tから6.70T)、セマンティックフィリティの損失(量子化性能劣化)を1.5%に抑える。
関連論文リスト
- H2-Cache: A Novel Hierarchical Dual-Stage Cache for High-Performance Acceleration of Generative Diffusion Models [7.8812023976358425]
H2-cacheは、現代的な生成拡散モデルアーキテクチャ用に設計された新しい階層型キャッシュ機構である。
本手法は,デノナイジングプロセスが構造決定段階と細部精製段階に機能的に分離できるという重要な知見に基づいて構築されている。
Fluxアーキテクチャの実験では、H2-cacheはベースラインとほぼ同じ画質を維持しながら、大きな加速(最大5.08倍)を達成することが示された。
論文 参考訳(メタデータ) (2025-10-31T04:47:14Z) - Predictive Feature Caching for Training-free Acceleration of Molecular Geometry Generation [67.20779609022108]
フローマッチングモデルは、高忠実度分子ジオメトリを生成するが、推論中にかなりの計算コストを発生させる。
本研究は,分子幾何生成を加速する学習自由キャッシング戦略について論じる。
GEOM-Drugsデータセットの実験は、キャッシングがウォールクロックの推測時間の2倍の削減を実現することを示した。
論文 参考訳(メタデータ) (2025-10-06T09:49:14Z) - iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation [49.8026360054331]
iFlameはメッシュ生成のためのトランスフォーマーベースの新しいネットワークアーキテクチャである。
本稿では,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリービング自己回帰メッシュ生成フレームワークを提案する。
提案するインターリービングフレームワークは,計算効率と生成性能を効果的にバランスさせることが示唆された。
論文 参考訳(メタデータ) (2025-03-20T19:10:37Z) - Accelerating Diffusion Transformer via Gradient-Optimized Cache [18.32157920050325]
時間的特徴再利用を通じて拡散トランスフォーマー(DiT)サンプリングを高速化するための効果的な戦略として機能キャッシングが登場した。
キャッシュされたブロックからのプログレッシブエラーの蓄積は生成品質を著しく低下させるため、これは難しい問題である。
本稿では,2つの重要なイノベーションを生かしたGradient-Perturbationd Cache (GOC)を提案する。
GOCはIS 216.28 (26.3%上)とFID 3.907 (43%下)をベースラインのDiTと比較して達成し、計算コストは同じである。
論文 参考訳(メタデータ) (2025-03-07T05:31:47Z) - XKV: Personalized KV Cache Memory Reduction for Long-Context LLM Inference [9.65524177141491]
大規模言語モデル(LLM)推論は出力トークンを1つずつ生成し、多くの冗長な計算に繋がる。
KV-Cacheフレームワークは時間と空間の複雑さを妥協する。
既存の研究では、推論精度に重要でないキャッシュデータの一部を削除することで、メモリ消費を減らすことができる。
各レイヤのキャッシュサイズをパーソナライズしてカスタマイズすることで,メモリの大幅な削減が期待できることを示す。
論文 参考訳(メタデータ) (2024-12-08T11:32:08Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Rethinking and Accelerating Graph Condensation: A Training-Free Approach with Class Partition [49.41718583061147]
グラフ凝縮(Graph condensation)は、大きなグラフを小さいが情報的な凝縮グラフに置き換えるための、データ中心のソリューションである。
既存のGCメソッドは、複雑な最適化プロセス、過剰なコンピューティングリソースとトレーニング時間を必要とする。
我々は、CGC(Class-partitioned Graph Condensation)と呼ばれるトレーニング不要なGCフレームワークを提案する。
CGCはOgbn-productsグラフを30秒以内に凝縮し、102$Xから104$Xまでのスピードアップを実現し、精度は4.2%まで向上した。
論文 参考訳(メタデータ) (2024-05-22T14:57:09Z) - Artificial Intelligence Assisted Collaborative Edge Caching in Small
Cell Networks [19.605382256630538]
本稿では、エッジノードにおける異種キャッシュモデルを持つユーザの異種コンテンツ嗜好について考察する。
複雑な制約問題を妥当な時間で効率的に解決する修正粒子群最適化(M-PSO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T10:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。