論文の概要: SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing
- arxiv url: http://arxiv.org/abs/2603.08982v1
- Date: Mon, 09 Mar 2026 22:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.852142
- Title: SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing
- Title(参考訳): SVG-EAR:誤差認識ルーティングによる疎ビデオ生成のためのパラメータフリー線形補償
- Authors: Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung,
- Abstract要約: Diffusion Transformers (DiTs) はビデオ生成において主要なバックボーンとなっているが、その二次的注意コストは依然として大きなボトルネックとなっている。
本稿では,不足しているコントリビューションをトレーニングなしで回収できることを示す。
パラメータフリーな線形補償分岐であるSVG-EARを導入する。
- 参考スコア(独自算出の注目度): 77.91660464664615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have become a leading backbone for video generation, yet their quadratic attention cost remains a major bottleneck. Sparse attention reduces this cost by computing only a subset of attention blocks. However, prior methods often either drop the remaining blocks, which incurs information loss, or rely on learned predictors to approximate them, introducing training overhead and potential output distribution shifting. In this paper, we show that the missing contributions can be recovered without training: after semantic clustering, keys and values within each block exhibit strong similarity and can be well summarized by a small set of cluster centroids. Based on this observation, we introduce SVG-EAR, a parameter-free linear compensation branch that uses the centroid to approximate skipped blocks and recover their contributions. While centroid compensation is accurate for most blocks, it can fail on a small subset. Standard sparsification typically selects blocks by attention scores, which indicate where the model places its attention mass, but not where the approximation error would be largest. SVG-EAR therefore performs error-aware routing: a lightweight probe estimates the compensation error for each block, and we compute exactly the blocks with the highest error-to-cost ratio while compensating for skipped blocks. We provide theoretical guarantees that relate attention reconstruction error to clustering quality, and empirically show that SVG-EAR improves the quality-efficiency trade-off and increases throughput at the same generation fidelity on video diffusion tasks. Overall, SVG-EAR establishes a clear Pareto frontier over prior approaches, achieving up to 1.77$\times$ and 1.93$\times$ speedups while maintaining PSNRs of up to 29.759 and 31.043 on Wan2.2 and HunyuanVideo, respectively.
- Abstract(参考訳): Diffusion Transformers (DiTs) はビデオ生成において主要なバックボーンとなっているが、その二次的注意コストは依然として大きなボトルネックとなっている。
スパースアテンションは、アテンションブロックのサブセットだけを計算することで、このコストを削減する。
しかし、事前の手法では、情報損失を招く残りのブロックをドロップするか、学習した予測器を使ってそれらを近似し、トレーニングのオーバーヘッドと潜在的な出力分布のシフトを導入する。
セマンティッククラスタリングの後、各ブロック内のキーと値が強い類似性を示し、クラスタセントロイドの小さなセットでよく要約できる。
そこで本研究では,パラメータフリーな線形補償分岐であるSVG-EARを導入する。
セントロイド補償はほとんどのブロックで正確であるが、小さなサブセットで失敗することがある。
標準スペーシフィケーションは通常、注目スコアによってブロックを選択するが、これはモデルがその注目質量をどこに配置するかを示すが、近似誤差が最大になる場所は示さない。
軽量プローブが各ブロックの補償誤差を推定し、スキップされたブロックを補償しながら、最も高いエラー対コスト比でブロックを正確に計算する。
我々は、注意再構成誤差とクラスタリング品質を関連付ける理論的保証を提供し、SVG-EARが品質効率のトレードオフを改善し、ビデオ拡散タスクにおける同世代の忠実度でスループットを向上させることを実証的に示す。
SVG-EARは、従来のアプローチよりも明確なParetoフロンティアを確立し、最大1.77$\times$と1.93$\times$のスピードアップを実現し、それぞれWan2.2とHunyuanVideoで最大29.759と31.043のPSNRを維持している。
関連論文リスト
- Robust inverse material design with physical guarantees using the Voigt-Reuss Net [0.0]
本稿では, ハード物理保証を伴う前方および逆機械的均質化のためのスペクトル正規化サロゲートを提案する。
バイファシック・マイクロ構造のオープンデータセット上の3次元線形弾性では、完全に接続されたVoigt-Reussネットは、236のイソトロピーインディスクリプタを持つFFTベースのラベルでトレーニングされている。
全体として、Voigt-Reussネットは、大バッチで制約に一貫性のある逆設計で正確で物理的に許容できる前方予測を統一する。
論文 参考訳(メタデータ) (2025-11-14T15:17:37Z) - Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation [84.00166854547241]
拡散変換器(DiT)はビデオ生成に必須であるが,注意の2次複雑さにより遅延が著しく低下する。
SVG2は,識別精度を最大化し,無駄を最小化する学習自由フレームワークである。
論文 参考訳(メタデータ) (2025-05-24T21:30:29Z) - Sparse Linear Bandits with Blocking Constraints [22.01704171400845]
データ・ポーア・システマにおける高次元スパース線形包帯問題について検討する。
線形モデルに対するラッソ推定器の新たなオフライン統計的保証を示す。
本稿では,最小限のコストで最適空間パラメータ$k$の知識を必要としない相関に基づくメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T01:42:03Z) - Vanishing Point Estimation in Uncalibrated Images with Prior Gravity
Direction [82.72686460985297]
我々はマンハッタンのフレームを推定する問題に取り組む。
2つの新しい2行解法が導出され、そのうちの1つは既存の解法に影響を与える特異点に悩まされない。
また、局所最適化の性能を高めるために、任意の行で実行される新しい最小でないメソッドを設計する。
論文 参考訳(メタデータ) (2023-08-21T13:03:25Z) - Discrimination-aware Network Pruning for Deep Model Compression [79.44318503847136]
既存のプルーニング手法は、スクラッチからスパーシティ制約で訓練するか、事前訓練されたモデルと圧縮されたモデルの特徴マップ間の再構成誤差を最小限に抑えるかのいずれかである。
本稿では,識別能力に実際に寄与するチャネルを選択するために,識別認識チャネルプルーニング (DCP) と呼ばれる簡便な手法を提案する。
画像分類と顔認識の両方の実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-01-04T07:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。