論文の概要: Attend Locally, Remember Linearly: Linear Attention as Cross-Frame Memory for Autoregressive Video Diffusion
- arxiv url: http://arxiv.org/abs/2605.16579v2
- Date: Wed, 20 May 2026 19:35:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.866409
- Title: Attend Locally, Remember Linearly: Linear Attention as Cross-Frame Memory for Autoregressive Video Diffusion
- Title(参考訳): 局所的, 線形的注意: 自己回帰的ビデオ拡散のためのクロスフレームメモリとしての線形注意
- Authors: Kunyang Li, Mubarak Shah, Yuzhang Shang,
- Abstract要約: ARL2は、二次的なクロスフレームアテンションを固定サイズのリカレント状態に置き換えるハイブリッドアテンションモジュールである。
本研究では,フレーム内ソフトマックスブランチとフレーム間リカレント線形ブランチの2つに分割し,ストリームコンテキストの固定サイズ状態を維持する。
75%の層がハイブリッドリニアアテンションに置き換えられ、最大2.26ウォールクロックのスピードアップと54%のメモリ削減を実現した。
- 参考スコア(独自算出の注目度): 61.57938553036056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) video diffusion is a powerful paradigm for streaming and interactive video generation. However, its reliance on softmax self-attention leads to quadratic compute complexity in sequence length and memory usage due to key-value caching, which limits its scalability to long video horizons. Existing remedies (e.g., sparse attention and KV-cache compression) reduce per-step cost but still rely on a linearly growing cache or irreversibly discard past context, and thus fail to address linear memory growth and streaming context management. To address this scalability bottleneck, we propose ARL2 (Attend Locally, Remember Linearly), a hybrid attention module that replaces quadratic cross-frame attention with a fixed-size recurrent state. We decompose self-attention into two branches: an intra-frame softmax branch for spatial detail and local dependencies, and an inter-frame gated recurrent linear branch that maintains a fixed-size state for streaming context. Our key insight is that softmax attention captures fine-grained local interactions, while a recurrent state provides controllable long-range memory. This design achieves linear-time scaling with constant memory while improving temporal consistency over the full-softmax model. To prevent noisy intermediate states from corrupting memory, we update the recurrent state only after the denoised pass. To avoid within-frame information asymmetry, all tokens share the same pre-update state rather than sequential updates. To the best of our knowledge, this is the first work to convert a pretrained AR video diffusion model into a hybrid linear attention architecture, through an efficient two-stage training scheme for AR video. With 75% of layers replaced by hybrid linear attention, the model achieves up to 2.26 wall-clock speedup and 54% memory reduction, while maintaining comparable quality with improving temporal consistency.
- Abstract(参考訳): オートレグレッシブ(AR)ビデオ拡散は、ストリーミングおよびインタラクティブなビデオ生成の強力なパラダイムである。
しかし、ソフトマックスの自己アテンションに依存しているため、キー値キャッシングによるシーケンス長とメモリ使用量の2次計算が複雑になり、そのスケーラビリティは長いビデオ水平線に制限される。
既存の改善(例えば、スパースアテンションとKV-キャッシュ圧縮)はステップ単位のコストを削減しますが、依然として線形に増大するキャッシュに依存しています。
このスケーラビリティのボトルネックに対処するため、我々は、二次的クロスフレームアテンションを固定サイズのリカレント状態に置き換えるハイブリッドアテンションモジュールARL2(Attend Locally, Remember Linearly)を提案する。
我々は,フレーム内ソフトマックス分岐を空間的詳細と局所的依存関係に分割し,フレーム間ゲート型リカレント線形分岐をストリーミングコンテキストに固定サイズ状態を維持する。
我々の重要な洞察は、ソフトマックスアテンションはきめ細かい局所的な相互作用を捉え、リカレント状態は制御可能な長距離メモリを提供するということである。
この設計は、フルソフトマックスモデル上での時間的一貫性を改善しつつ、一定メモリで線形時間スケーリングを実現する。
ノイズの多い中間状態がメモリを劣化させるのを防止するため、復号化後のみ再帰状態を更新する。
フレーム内の情報非対称性を避けるために、すべてのトークンはシーケンシャルな更新ではなく、同じ事前更新状態を共有する。
我々の知る限り、これはARビデオの効率的な2段階トレーニングスキームを通じて、事前訓練されたARビデオ拡散モデルをハイブリッドな線形アテンションアーキテクチャに変換する最初の試みである。
75%の層がハイブリッドリニアアテンションに置き換えられ、最大2.26ウォールクロックのスピードアップと54%のメモリ削減を実現した。
関連論文リスト
- SWIFT: Prompt-Adaptive Memory for Efficient Interactive Long Video Generation [31.105007908298003]
ストリーミング長ビデオ生成は、連続的なセマンティックスイッチングにおいて中心的な課題に直面している。
現在のアプローチは、プロンプトバウンダリや固定メモリ予算でのキャッシュ再構築に依存している。
マルチプロンプト長ビデオ生成のためのトレーニングフリーフレームワークであるSWIFTを提案する。
論文 参考訳(メタデータ) (2026-05-10T09:37:56Z) - Going Down Memory Lane: Scaling Tokens for Video Stream Understanding with Dynamic KV-Cache Memory [50.30283773196725]
既存のアプローチは、時間とともにフレームレベルの詳細を蓄積するためにキーバリューキャッシングに依存していますが、フレーム毎に限られた数のトークンを使用します。
より詳細な時間的理解と推論を可能にするためにトークン予算のスケーリングを提案する。
論文 参考訳(メタデータ) (2026-02-20T18:59:50Z) - Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention [37.91838955436801]
自動回帰ビデオ拡散モデルは、ストリーミング生成、ロングフォーム合成への扉を開くこと、ビデオワールドモデル、インタラクティブなニューラルゲームエンジンを可能にする。
生成が進むにつれて、KVキャッシュが増加し、レイテンシの増加とGPUメモリのエスカレーションが生じる。
我々は、自己回帰拡散のための統合されたトレーニングなしアテンションフレームワークを提案する: TempCacheは、時間的対応によるKVキャッシュをバウンドキャッシュ成長に圧縮し、AnnCAは、高速近傍マッチングを用いてフレーム関連プロンプトを選択することで、クロスアテンションを加速し、AnnSAは各クエリを制限して自己アテンションを拡大する。
論文 参考訳(メタデータ) (2026-02-02T08:31:21Z) - GatedFWA: Linear Flash Windowed Attention with Gated Associative Memory [7.180426235884756]
GatedFWAはメモリアンダーラインGated(アンダーラインFlash)アンダーラインWindowedアンダーラインAttentionメカニズムである。
メモリ更新を安定させ、グラデーションフローを制御可能にする。
言語モデリングベンチマークでは、GatedFWAは、無視できないオーバーヘッドで競合スループットを提供する。
論文 参考訳(メタデータ) (2025-12-08T18:11:06Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - Ca2-VDM: Efficient Autoregressive Video Diffusion Model with Causal Generation and Cache Sharing [66.66090399385304]
Ca2-VDMは、Causal生成とキャッシュ共有を備えた効率的な自己回帰VDMである。
因果生成のために一方向の特徴計算を導入し、前回の自己回帰ステップで条件付きフレームのキャッシュをプリ計算できるようにする。
キャッシュ共有では、巨大なキャッシュストレージコストを避けるために、すべてのデノナイズステップでキャッシュを共有する。
論文 参考訳(メタデータ) (2024-11-25T13:33:41Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [19.900719882624028]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。