論文の概要: ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2601.04342v1
- Date: Wed, 07 Jan 2026 19:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.88432
- Title: ReHyAt: Recurrent Hybrid Attention for Video Diffusion Transformers
- Title(参考訳): ReHyAt: ビデオ拡散変換器の繰り返しハイブリッドアテンション
- Authors: Mohsen Ghafoorian, Amirhossein Habibian,
- Abstract要約: ReHyAtは、ソフトマックスアテンションの忠実度と線形アテンションの効率を結合するハイブリッドアテンション機構である。
実験により,ReHyAtは2次から線形への注目コストを低減しつつ,最先端の映像品質を実現することが示された。
- 参考スコア(独自算出の注目度): 10.830662834634879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video diffusion models have shifted towards transformer-based architectures, achieving state-of-the-art video generation but at the cost of quadratic attention complexity, which severely limits scalability for longer sequences. We introduce ReHyAt, a Recurrent Hybrid Attention mechanism that combines the fidelity of softmax attention with the efficiency of linear attention, enabling chunk-wise recurrent reformulation and constant memory usage. Unlike the concurrent linear-only SANA Video, ReHyAt's hybrid design allows efficient distillation from existing softmax-based models, reducing the training cost by two orders of magnitude to ~160 GPU hours, while being competitive in the quality. Our light-weight distillation and finetuning pipeline provides a recipe that can be applied to future state-of-the-art bidirectional softmax-based models. Experiments on VBench and VBench-2.0, as well as a human preference study, demonstrate that ReHyAt achieves state-of-the-art video quality while reducing attention cost from quadratic to linear, unlocking practical scalability for long-duration and on-device video generation. Project page is available at https://qualcomm-ai-research.github.io/rehyat.
- Abstract(参考訳): ビデオ拡散モデルの最近の進歩は、トランスフォーマーベースのアーキテクチャに移行し、最先端のビデオ生成を実現するが、より長いシーケンスのスケーラビリティを著しく制限する二次的注意の複雑さを犠牲にしている。
本稿では,リカレントハイブリッドアテンション機構であるReHyAtを紹介する。これは,ソフトマックスアテンションの忠実さと線形アテンションの効率を組み合わせ,チャンクワイドリカレントリコーデレーションと一定メモリ使用率を実現する。
ReHyAtのハイブリッド設計は、線形のみのSANAビデオとは異なり、既存のソフトマックスベースのモデルからの効率的な蒸留を可能にし、トレーニングコストを2桁から160GPU時間に削減し、品質に競争力がある。
我々の軽量蒸留および微調整パイプラインは、将来の最先端の双方向ソフトマックスモデルに適用可能なレシピを提供する。
VBenchとVBench-2.0の実験は、人間の好みの研究と同様に、ReHyAtが2次から線形への注意コストを低減し、長期化およびオンデバイスビデオ生成のための実用的なスケーラビリティを解放しつつ、最先端のビデオ品質を達成することを実証している。
プロジェクトページはhttps://qualcomm-ai-research.github.io/rehyat.comで公開されている。
関連論文リスト
- Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer [13.545000689565732]
トランスフォーマーベースのビデオ拡散モデル(VDM)は、最先端のビデオ生成の品質を提供するが、自己注意の二次コストに制約される。
我々は,訓練前のVDMの注意をスクラッチからトレーニングすることなくリニアライズあるいはハイブリダイズするための効果的なフレームワークである注意外科を紹介した。
論文 参考訳(メタデータ) (2025-09-29T15:09:51Z) - Training-Free Efficient Video Generation via Dynamic Token Carving [54.52061549312799]
Jengaは、ダイナミックアテンション彫刻とプログレッシブレゾリューション生成を組み合わせた推論パイプラインである。
プラグアンドプレイのソリューションとして、Jengaは現代のハードウェアで実用的な高品質のビデオ生成を可能にする。
論文 参考訳(メタデータ) (2025-05-22T16:21:32Z) - Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis [50.77548592888096]
2Kビデオ合成の需要は、超明快なビジュアルに対する消費者の期待が高まるにつれて増大している。
Turbo2Kはディテールリッチな2Kビデオを生成するための効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-04-20T03:30:59Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。