論文の概要: PARE: Pruning and Adaptive Routing for Efficient Video Generation
- arxiv url: http://arxiv.org/abs/2605.27336v1
- Date: Tue, 26 May 2026 17:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.573409
- Title: PARE: Pruning and Adaptive Routing for Efficient Video Generation
- Title(参考訳): PARE:効率的なビデオ生成のためのプルーニングとアダプティブルーティング
- Authors: Yutong Wang, Yunke Wang, Tianfan Xue, Yu Qiao, Yaohui Wang, Xinyuan Chen, Chang Xu,
- Abstract要約: ビデオ拡散変換器(DiT)は高品質なビデオを生成するが、広いブロック、深いアーキテクチャ、反復的なサンプリングのためにかなりの計算を必要とする。
最近の手法では、幅、深さ、サンプリングのステップを圧縮することでコストを削減するが、通常は個々の入力に適応できない固定されたアーキテクチャにコミットする。
本稿では,構造対応プルーニングと入力適応ルーティングを併用して,幅と深さを共同で圧縮するPAREを提案する。
- 参考スコア(独自算出の注目度): 71.54959622788608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Diffusion Transformers (DiTs) generate high-quality videos but demand substantial compute due to wide blocks, deep architectures, and iterative sampling. Recent methods reduce cost by compressing width, depth, or sampling steps, but typically commit to a fixed architecture that cannot adapt to individual inputs or denoising stages. We propose PARE (Pruning and Adaptive Routing for Efficient video generation), which jointly compresses width and depth with structure-aware pruning and input-adaptive routing. For width, we observe that attention heads specialize into spatial and temporal roles, and design importance scoring that accounts for this distinction to prevent motion-critical temporal heads from being pruned prematurely. For depth, we train a lightweight router conditioned on denoising timestep and visual content to dynamically select which blocks to execute at each step, enabling per-input compute adaptation rather than static block removal. A progressive pipeline first recovers width-pruned quality via distillation, then jointly optimizes the student and router to decouple the two learning objectives. Experiments on Wan2.1-14B for both image-to-video and text-to-video generation show that PARE substantially reduces per-step computation while preserving quality across VBench dimensions, and composes with step distillation for further acceleration.
- Abstract(参考訳): ビデオ拡散変換器(DiT)は高品質なビデオを生成するが、広いブロック、深いアーキテクチャ、反復的なサンプリングのためにかなりの計算を必要とする。
最近の手法では、幅、深さ、サンプリングのステップを圧縮することでコストを削減するが、通常は個々の入力に適応できない固定されたアーキテクチャにコミットする。
提案するPARE(Pruning and Adaptive Routing for Efficient Video Generation)は,構造対応プルーニングと入力適応ルーティングを併用して,幅と深さを圧縮する。
空間的, 時間的役割に特化して注目の頭部を観察し, 動作クリティカルな側頭部が早期に刈り取られるのを防止するために, この区別を考慮に入れた設計上の重要度を評価する。
本研究では,各ステップで実行すべきブロックを動的に選択し,静的なブロック除去ではなく,インプット毎の計算適応を可能にする軽量ルータを訓練する。
プログレッシブパイプラインは、まず蒸留により幅の幅を割った品質を回復し、次いで学生とルータを共同で最適化し、2つの学習目標を分離する。
Wan2.1-14Bによる画像・ビデオ・テキスト・ビデオ生成実験により、PAREはVBench次元にわたる品質を維持しながらステップごとの計算を大幅に削減し、さらに加速するためにステップ蒸留と合成することを示した。
関連論文リスト
- Foresight: Adaptive Layer Reuse for Accelerated and High-Quality Text-to-Video Generation [3.321460333625124]
Diffusion Transformer (DiTs) は、テキスト・トゥ・イメージ、テキスト・トゥ・ビデオ生成、編集といった最先端の成果を達成する。
静的キャッシュは、固定ステップにまたがって機能を再利用することでこれを緩和するが、ジェネレーションダイナミクスに適応できない。
ベースライン性能を保ちながらデノナイジングステップ間の計算冗長性を低減させる適応層再利用手法であるForesightを提案する。
論文 参考訳(メタデータ) (2025-05-31T00:52:17Z) - VORTA: Efficient Video Diffusion via Routing Sparse Attention [54.84294780326206]
VORTAは2つの新しいコンポーネントを持つアクセラレーションフレームワークである。
VBenchの品質を損なうことなく、エンドツーエンドのスピードアップを$1.76タイムで実現している。
モデルキャッシングやステップ蒸留など、他の様々なアクセラレーション手法とシームレスに統合でき、14.41タイムのスピードアップに到達し、性能劣化を無視できる。
論文 参考訳(メタデータ) (2025-05-24T17:46:47Z) - Training-free and Adaptive Sparse Attention for Efficient Long Video Generation [31.615453637053793]
Diffusion Transformers (DiTs) による高忠実度長ビデオの生成は、しばしば大きな遅延によって妨げられる。
本稿では,最初の動的パターンとオンライン精密検索スパースアテンション手法であるAdaSpaを提案する。
AdaSpaは適応的なプラグアンドプレイソリューションとして実装されており、既存のDiTとシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-02-28T14:11:20Z) - RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。
したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。
ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-21T15:36:08Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [19.900719882624028]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。