論文の概要: Recurrent Autoregressive Diffusion: Global Memory Meets Local Attention
- arxiv url: http://arxiv.org/abs/2511.12940v1
- Date: Mon, 17 Nov 2025 03:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.646641
- Title: Recurrent Autoregressive Diffusion: Global Memory Meets Local Attention
- Title(参考訳): Recurrent Autoregressive Diffusion: Global Memoryがローカルアテンションに到達
- Authors: Taiye Chen, Zihan Ding, Anjian Li, Christina Zhang, Zeqi Xiao, Yisen Wang, Chi Jin,
- Abstract要約: 本稿では,メモリ更新と検索のためのフレームワイズ自動回帰を行う,新しい自己回帰拡散(RAD)フレームワークを提案する。
メモリとMinecraftデータセットの実験は、長時間のビデオ生成におけるRADの優位性を実証している。
- 参考スコア(独自算出の注目度): 40.10862285690496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in video generation have demonstrated the potential of using video diffusion models as world models, with autoregressive generation of infinitely long videos through masked conditioning. However, such models, usually with local full attention, lack effective memory compression and retrieval for long-term generation beyond the window size, leading to issues of forgetting and spatiotemporal inconsistencies. To enhance the retention of historical information within a fixed memory budget, we introduce a recurrent neural network (RNN) into the diffusion transformer framework. Specifically, a diffusion model incorporating LSTM with attention achieves comparable performance to state-of-the-art RNN blocks, such as TTT and Mamba2. Moreover, existing diffusion-RNN approaches often suffer from performance degradation due to training-inference gap or the lack of overlap across windows. To address these limitations, we propose a novel Recurrent Autoregressive Diffusion (RAD) framework, which executes frame-wise autoregression for memory update and retrieval, consistently across training and inference time. Experiments on Memory Maze and Minecraft datasets demonstrate the superiority of RAD for long video generation, highlighting the efficiency of LSTM in sequence modeling.
- Abstract(参考訳): 近年の映像生成の進歩は,映像拡散モデルを世界モデルとして用いる可能性を示し,マスク付き条件付けによる無限長ビデオの自動再生を実現している。
しかし、そのようなモデルは通常、ローカル全注目で、ウィンドウサイズを超えて、メモリ圧縮と長期生成のための効率的な検索を欠いているため、時空間的不整合を忘れることが問題となる。
固定メモリ予算内での履歴情報の保持を高めるため,拡散トランスフォーマフレームワークにリカレントニューラルネットワーク(RNN)を導入する。
具体的には、TLTやMamba2のような最先端のRNNブロックに匹敵する性能を実現する。
さらに、既存の拡散-RNNアプローチは、トレーニングと推論のギャップやウィンドウ間のオーバーラップの欠如によるパフォーマンスの低下に悩まされることが多い。
これらの制約に対処するため,我々は,学習時間と推論時間に連続して,メモリ更新と検索のためのフレームワイズ自動回帰を実行する,新しい自己回帰拡散フレームワーク(RAD)を提案する。
メモリ迷路とMinecraftデータセットの実験は、長いビデオ生成におけるRADの優位性を示し、シーケンスモデリングにおけるLSTMの効率性を強調している。
関連論文リスト
- Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework [127.61297651993561]
様々な自動回帰ビデオ拡散モデル(ARVDM)は、リアルなロングフォームビデオの生成において顕著な成功を収めた。
我々はこれらのモデルに関する理論的基盤を開発し、既存のモデルの性能を改善するために洞察を利用する。
論文 参考訳(メタデータ) (2025-03-12T15:32:44Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。
トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。
本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - SSM Meets Video Diffusion Models: Efficient Long-Term Video Generation with Structured State Spaces [20.23192934634197]
映像生成のための最近の拡散モデルでは、時間的特徴を抽出するために注意層を主に利用している。
この制限は拡散モデルを用いてより長いビデオシーケンスを生成する際に大きな課題をもたらす。
本研究では,状態空間モデル(SSM)を時間的特徴抽出器として活用することを提案する。
論文 参考訳(メタデータ) (2024-03-12T14:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。