論文の概要: Echo-Infinity: Learning Evolving Memory for Real-Time Infinite Video Generation
- arxiv url: http://arxiv.org/abs/2606.04527v1
- Date: Wed, 03 Jun 2026 07:09:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 07:07:40.466961
- Title: Echo-Infinity: Learning Evolving Memory for Real-Time Infinite Video Generation
- Title(参考訳): Echo-Infinity: リアルタイムビデオ生成のための記憶を進化させる学習
- Authors: Yuxuan Bian, Zeyue Xue, Songchun Zhang, Shiyi Zhang, Weiyang Jin, Yaowei Li, Junhao Zhuang, Haoran Li, Jie Huang, Haoyang Huang, Nan Duan, Qiang Xu,
- Abstract要約: 本稿では,リアルタイム無限ビデオ生成に向けた自動回帰(AR)フレームワークであるEcho Infinityを紹介する。
学習可能な進化可能なメモリを使用して、任意の長さの履歴を動的にフィルタリングし、抽象化し、圧縮する。
最先端のパフォーマンスを実現し、私たちの知る限り、24時間(>1.3M)のリアルタイムロールアウトを初めて実現しています。
- 参考スコア(独自算出の注目度): 59.01737077739414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Echo Infinity, an autoregressive (AR) framework towards real-time infinite video generation that employs a learnable evolving memory to dynamically filter, abstract, and compress any-length history at constant cost. Existing methods mainly curate memory with predefined KV-cache schedules, fixed-ratio heuristic compression, or inference-time RoPE adaptation. These designs inevitably lose historical information and amplify compounding errors due to their limited cache window and ignorance of autoregressive generation noise. Inspired by human memory consolidation, Echo-Infinity replaces handcrafted memory curation with learnable Memory Query, which are updated by attention and a gating mechanism when past frames are evicted from the local window. The queries are optimized end-to-end with the video diffusion transformers (DiTs), forming an evolving memory that supports arbitrary compression ratios with constant computation independent of video length. They also act as a generalizable generation prior, improving quality even when only the optimized initial state is used. We further introduce Unified Relative RoPE Recipe, which anchors the sink frames to start from id 0 and lets the newest frame id grow at most to the DiTs' pretrained maximum temporal RoPE id throughout training and inference, freeing the model from the finite RoPE constraint and closing the train-test RoPE extrapolation gap. In long and short video generation, Echo-Infinity achieves state-of-the-art performance, and, to our knowledge, demonstrates promising 24-hour (>1.3 M frames) real-time rollouts for the first time, suggesting a practical path toward infinite video generation.
- Abstract(参考訳): 学習可能な進化メモリを用いて任意の長さ履歴を動的にフィルタリング,抽象化,圧縮し,一定のコストで圧縮する,リアルタイム無限ビデオ生成のための自動回帰(AR)フレームワークであるEcho Infinityを提案する。
既存の手法は主にメモリを、予め定義されたKVキャッシュスケジュール、固定比ヒューリスティック圧縮、推論時RoPE適応でキュレートする。
これらの設計は必然的に過去の情報を失い、キャッシュウインドウの制限と自己回帰生成ノイズの無視による複合的なエラーを増幅する。
人間のメモリ統合にインスパイアされたEcho-Infinityは、手作りのメモリキュレーションを学習可能なメモリクエリに置き換える。
クエリは、ビデオ拡散変換器(DiT)でエンドツーエンドに最適化され、ビデオ長に依存しない一定計算で任意の圧縮比をサポートする進化したメモリを形成する。
また、最適化された初期状態のみを使用した場合でも、前もって一般化可能な世代として機能し、品質を向上させる。
さらに、トレーニングと推論を通じて、シンクフレームをid 0からスタートさせるUnified Relative RoPE Recipeを導入し、トレーニングと推論を通じてDiTsの事前訓練された最大時空間RoPE idに最も最新のフレームIDを成長させ、有限のRoPE制約からモデルを解放し、列車試験のRoPE外挿ギャップを閉じる。
長短のビデオ生成において、Echo-Infinityは最先端のパフォーマンスを実現し、我々の知る限り、24時間(>1.3M)のリアルタイムロールアウトを初めて実現し、無限のビデオ生成への実践的な道のりを示唆している。
関連論文リスト
- Teaching Video Generators to Remember: Eliciting Dynamic Memory for Out-of-Sight State Evolution [25.63670341165374]
ビデオモデルは、証拠が保存されていないときに進化する状態を維持すべきであるが、現在のジェネレータは割り込み時に隠れた状態を凍結することが多い。
本稿では,メモリ指向データ,イベント認識トレーニング,キャッシュ型適応による動的メモリ動作を実現するフレームワークであるReMindを紹介する。
論文 参考訳(メタデータ) (2026-05-25T01:30:41Z) - Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos [0.05417521241272644]
列車なしの長ビデオ生成は、基礎的なビデオ生成モデルがより長いビデオを生成することを可能にすることを目的としている。
フレームレベルの自己回帰フレームワーク、例えばFIFO拡散は、一定のメモリ消費で無限に長いビデオを生成する利点を提供する。
我々は,新しい無限フレーム長ビデオ生成法である textbfMIGA を提案する。
論文 参考訳(メタデータ) (2026-05-18T11:28:45Z) - Attend Locally, Remember Linearly: Linear Attention as Cross-Frame Memory for Autoregressive Video Diffusion [61.57938553036056]
ARL2は、二次的なクロスフレームアテンションを固定サイズのリカレント状態に置き換えるハイブリッドアテンションモジュールである。
本研究では,フレーム内ソフトマックスブランチとフレーム間リカレント線形ブランチの2つに分割し,ストリームコンテキストの固定サイズ状態を維持する。
75%の層がハイブリッドリニアアテンションに置き換えられ、最大2.26ウォールクロックのスピードアップと54%のメモリ削減を実現した。
論文 参考訳(メタデータ) (2026-05-15T19:33:45Z) - Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation [48.476317015122625]
Echo-Forcingは、インタラクティブなロングビデオ生成のためのトレーニング不要のシーンメモリフレームワークである。
キャッシュのバウンダリでスムーズなトランジション、ハードカット、長距離シーンリコールをサポートする。
論文 参考訳(メタデータ) (2026-05-15T14:33:09Z) - SWIFT: Prompt-Adaptive Memory for Efficient Interactive Long Video Generation [31.105007908298003]
ストリーミング長ビデオ生成は、連続的なセマンティックスイッチングにおいて中心的な課題に直面している。
現在のアプローチは、プロンプトバウンダリや固定メモリ予算でのキャッシュ再構築に依存している。
マルチプロンプト長ビデオ生成のためのトレーニングフリーフレームワークであるSWIFTを提案する。
論文 参考訳(メタデータ) (2026-05-10T09:37:56Z) - MemRoPE: Training-Free Infinite Video Generation via Evolving Memory Tokens [34.228121359393775]
2つの共同設計コンポーネントを備えたトレーニングフリーフレームワークであるMemRoPEを紹介した。
オンラインRoPEインデックスは、回転しないキーをキャッシュし、注意時に位置埋め込みを動的に適用する。
MemRoPEは、時間的コヒーレンス、視覚的忠実度、主観的一貫性において、毎分から1時間単位で既存の手法より優れている。
論文 参考訳(メタデータ) (2026-03-12T23:14:16Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。