論文の概要: Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation
- arxiv url: http://arxiv.org/abs/2605.16003v1
- Date: Fri, 15 May 2026 14:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.320403
- Title: Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation
- Title(参考訳): Echo-Forcing: 対話型ロングビデオ生成のためのシーンメモリフレームワーク
- Authors: Mingqiang Wu, Weilun Feng, Zhefeng Zhang, Haotong Qin, Yuqi Li, Guoxin Fan, Xiaokun Liu, Zhulin An, Libo Huang, Yongjun Xu, Chuanguang Yang,
- Abstract要約: Echo-Forcingは、インタラクティブなロングビデオ生成のためのトレーニング不要のシーンメモリフレームワークである。
キャッシュのバウンダリでスムーズなトランジション、ハードカット、長距離シーンリコールをサポートする。
- 参考スコア(独自算出の注目度): 48.476317015122625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video diffusion models enable open-ended generation through local attention and KV caching. However, existing training-free long-video optimization methods mainly focus on stable extension under a single prompt, making them difficult to handle interactive scenarios involving prompt switching, old scene forgetting, and historical scene recall. We identify the core bottleneck as the functional entanglement of historical KV states: stable anchors and recent dynamics are handled by the same cache policy, leading to outdated background contamination, delayed response to new prompts, and loss of long-range memory. To address this issue, we propose Echo-Forcing, a training-free scene memory framework specifically designed for interactive long video generation with three core mechanisms: (1) Hierarchical Temporal Memory, which decouples stable anchors, compressed history, and recent windows under relative RoPE; (2) Scene Recall Frames, which compresses historical scenes into spatially structured KV representations to support long-term recall; and (3) Difference-aware Memory Decay, which adaptively forgets conflicting tokens according to the discrepancy between old and new scenes. Based on these designs, Echo-Forcing uniformly supports smooth transitions, hard cuts, and long-range scene recall under a bounded cache budget. Extensive evaluations on VBench-Long further demonstrate that Echo-Forcing achieves the best overall performance in both long-video generation and interactive video generation settings. Our code is released in https://github.com/mingqiangWu/Echo-Forcing
- Abstract(参考訳): 自動回帰ビデオ拡散モデルにより、局所的な注意とKVキャッシングによるオープンエンド生成が可能となる。
しかし、既存のトレーニングフリーの長ビデオ最適化手法は、主に単一のプロンプト下での安定した拡張に焦点を当てており、即時スイッチング、古いシーンの忘れ、過去のシーンリコールといった対話的なシナリオを扱うのが困難である。
安定アンカーと最近のダイナミックスは、同じキャッシュポリシーで処理され、時代遅れのバックグラウンド汚染、新しいプロンプトへの応答の遅れ、長距離メモリの損失につながる。
この問題を解決するために,(1)安定したアンカーと圧縮された歴史と最近のRoPEの窓を分離する階層的テンポラルメモリ,(2)長期リコールをサポートするために歴史的シーンを空間的に構造化したKV表現に圧縮するシーンリコールフレーム,(3)古いシーンと新しいシーンの相違を適応的に無視する差分認識メモリデケイ,の3つのメカニズムで,インタラクティブな長ビデオ生成に特化したトレーニングフリーなシーンメモリフレームワークであるEcho-Forcingを提案する。
これらの設計に基づいて、Echo-Forcingはバウンダリキャッシュ予算の下でスムーズなトランジション、ハードカット、長距離シーンリコールを均一にサポートする。
VBench-Longでの広範囲な評価により、Echo-Forcingは、長ビデオ生成とインタラクティブなビデオ生成設定の両方において、最高の全体的なパフォーマンスを達成することが示された。
私たちのコードはhttps://github.com/mingqiangWu/Echo-Forcingでリリースされています。
関連論文リスト
- SWIFT: Prompt-Adaptive Memory for Efficient Interactive Long Video Generation [31.105007908298003]
ストリーミング長ビデオ生成は、連続的なセマンティックスイッチングにおいて中心的な課題に直面している。
現在のアプローチは、プロンプトバウンダリや固定メモリ予算でのキャッシュ再構築に依存している。
マルチプロンプト長ビデオ生成のためのトレーニングフリーフレームワークであるSWIFTを提案する。
論文 参考訳(メタデータ) (2026-05-10T09:37:56Z) - Semantic-Aware Adaptive Visual Memory for Streaming Video Understanding [55.7992006853979]
SAVEMemは、セマンティックな認識をメモリ生成にもたらすフレームワークで、クエリ毎に検索スコープを適応させる。
SAVEMemは、メモリ生成にセマンティックな認識をもたらし、クエリ毎に検索範囲を適応させる、トレーニングフリーのデュアルステージフレームワークである。
論文 参考訳(メタデータ) (2026-05-08T15:40:40Z) - Memorize-and-Generate: Towards Long-Term Consistency in Real-Time Video Generation [33.32047364623734]
Memorize-and-Generate(MAG)は、メモリ圧縮とフレーム生成を別々のタスクに分離するフレームワークである。
我々は、記憶モデルを訓練して、履歴情報をコンパクトなKVキャッシュに圧縮し、この圧縮された表現を用いて、後続のフレームを合成する別個のジェネレータモデルを訓練する。
実験により、MAGは標準的なビデオ生成ベンチマーク上での競争性能を維持しながら、優れた歴史的一貫性を実現することが示された。
論文 参考訳(メタデータ) (2025-12-21T14:02:53Z) - MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives [54.07515675393396]
既存のソリューションは、事前に定義された戦略で過去のフレームを圧縮することでメモリを維持する。
我々はこの問題に対処するためにMemFlowを提案する。
MemFlowは、無視可能な負担を伴う、卓越した長いコンテキスト整合性を実現する。
論文 参考訳(メタデータ) (2025-12-16T18:59:59Z) - Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z) - VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory [55.73900731190389]
Surfel-Indexed View Memory (VMem) は、過去のビューを記憶するメモリモジュールであり、それらが観測した3次元表面要素(サーフェル)に基づいて幾何学的にインデックス化することで、過去のビューを記憶する。
VMemは、新しいビューを生成する際に、最も関連性の高い過去のビューを効率的に検索することを可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:59:56Z) - Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval [33.15952106579093]
歴史的文脈をメモリとして利用して映像生成を行うコンテキスト・アズ・メモリを提案する。
歴史的文脈を全て組み込むという膨大な計算オーバーヘッドを考慮すると、メモリ検索モジュールを提案する。
実験により, コンテキスト・アズ・メモリは, SOTAと比較して, 対話型長ビデオ生成において優れたメモリ能力を実現することが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。