論文の概要: MemRoPE: Training-Free Infinite Video Generation via Evolving Memory Tokens
- arxiv url: http://arxiv.org/abs/2603.12513v1
- Date: Thu, 12 Mar 2026 23:14:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.804294
- Title: MemRoPE: Training-Free Infinite Video Generation via Evolving Memory Tokens
- Title(参考訳): MemRoPE: メモリトークンの進化によるトレーニング不要の無限ビデオ生成
- Authors: Youngrae Kim, Qixin Hu, C. -C. Jay Kuo, Peter A. Beerel,
- Abstract要約: 2つの共同設計コンポーネントを備えたトレーニングフリーフレームワークであるMemRoPEを紹介した。
オンラインRoPEインデックスは、回転しないキーをキャッシュし、注意時に位置埋め込みを動的に適用する。
MemRoPEは、時間的コヒーレンス、視覚的忠実度、主観的一貫性において、毎分から1時間単位で既存の手法より優れている。
- 参考スコア(独自算出の注目度): 34.228121359393775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive diffusion enables real-time frame streaming, yet existing sliding-window caches discard past context, causing fidelity degradation, identity drift, and motion stagnation over long horizons. Current approaches preserve a fixed set of early tokens as attention sinks, but this static anchor cannot reflect the evolving content of a growing video. We introduce MemRoPE, a training-free framework with two co-designed components. Memory Tokens continuously compress all past keys into dual long-term and short-term streams via exponential moving averages, maintaining both global identity and recent dynamics within a fixed-size cache. Online RoPE Indexing caches unrotated keys and applies positional embeddings dynamically at attention time, ensuring the aggregation is free of conflicting positional phases. These two mechanisms are mutually enabling: positional decoupling makes temporal aggregation well-defined, while aggregation makes fixed-size caching viable for unbounded generation. Extensive experiments validate that MemRoPE outperforms existing methods in temporal coherence, visual fidelity, and subject consistency across minute- to hour-scale generation.
- Abstract(参考訳): 自己回帰拡散は、リアルタイムのフレームストリーミングを可能にするが、既存のスライドウインドウキャッシュは過去のコンテキストを捨て、忠実度低下、アイデンティティのドリフト、長い地平線上の動きの停滞を引き起こす。
現在のアプローチでは、注意シンクとして初期トークンの固定セットが保存されているが、この静的アンカーは、成長するビデオの内容の進化を反映することはできない。
2つの共同設計コンポーネントを備えたトレーニングフリーフレームワークであるMemRoPEを紹介した。
メモリトークンは、すべての過去のキーを指数的な移動平均によって2つの長期的および短期的なストリームに連続的に圧縮し、固定サイズのキャッシュ内でグローバルIDと最近のダイナミクスの両方を維持する。
オンラインRoPEインデックスは、回転しないキーをキャッシュし、注意時に動的に位置埋め込みを適用する。
これら2つのメカニズムは相互に有効であり、位置分離は時間的アグリゲーションを適切に定義し、アグリゲーションはアンバウンド世代に対して固定サイズキャッシングを可能にする。
大規模な実験により、MemRoPEは時間的コヒーレンス、視覚的忠実度、主観的一貫性において、毎分から1時間にまたがって既存の手法より優れていることが検証された。
関連論文リスト
- Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention [37.91838955436801]
自動回帰ビデオ拡散モデルは、ストリーミング生成、ロングフォーム合成への扉を開くこと、ビデオワールドモデル、インタラクティブなニューラルゲームエンジンを可能にする。
生成が進むにつれて、KVキャッシュが増加し、レイテンシの増加とGPUメモリのエスカレーションが生じる。
我々は、自己回帰拡散のための統合されたトレーニングなしアテンションフレームワークを提案する: TempCacheは、時間的対応によるKVキャッシュをバウンドキャッシュ成長に圧縮し、AnnCAは、高速近傍マッチングを用いてフレーム関連プロンプトを選択することで、クロスアテンションを加速し、AnnSAは各クエリを制限して自己アテンションを拡大する。
論文 参考訳(メタデータ) (2026-02-02T08:31:21Z) - FlashMem: Distilling Intrinsic Latent Memory via Computation Reuse [4.210760734549566]
FlashMemは、計算再利用を通じて、過渡的推論状態から直接固有のメモリを蒸留するフレームワークである。
実験によると、FlashMemは5倍の推論遅延を減らしながら、重いベースラインのパフォーマンスと一致している。
論文 参考訳(メタデータ) (2026-01-09T03:27:43Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression [36.99018442740971]
映像拡散にStreamingLLMスタイルのアテンションシンクを鼻で適用すると、忠実度が低下し、動きが停滞することがわかった。
我々は、微調整なしでこれに対応する2つのトレーニング不要なメカニズムからなるDeep Forcingを紹介した。
以上の結果から,トレーニングフリーなKV-cache管理は,自動回帰ストリーミング長ビデオ生成のためのトレーニングベースアプローチと一致するか,あるいは超える可能性があることが示唆された。
論文 参考訳(メタデータ) (2025-12-04T18:46:44Z) - VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory [42.2374676860638]
自己回帰(AR)拡散は、フレームを因果的に生成することで、ストリーミングでインタラクティブな長ビデオ生成を可能にする。
微小スケールの地平線上でのコヒーレンスを維持することは、蓄積したエラー、動きのドリフト、およびコンテンツ反復のために依然として困難である。
我々は、AR拡散をハイブリッドな状態空間メモリと統合する長ビデオモデルVideoSSMを提案する。
論文 参考訳(メタデータ) (2025-12-04T07:06:02Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - PPMStereo: Pick-and-Play Memory Construction for Consistent Dynamic Stereo Matching [51.98089287914147]
textbfPick-and-textbflay textbfMemory (PM) construction module for dynamic bfStereo matching, called bftextPPMStereo。
bftextPPMStereo と呼ばれる動的 bfStereo マッチングのための textbfPick-and-textbflay textbfMemory (PM) 構築モジュールを提案する。
論文 参考訳(メタデータ) (2025-10-23T03:52:39Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。