論文の概要: MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives
- arxiv url: http://arxiv.org/abs/2512.14699v1
- Date: Tue, 16 Dec 2025 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.848644
- Title: MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives
- Title(参考訳): MemFlow: 一貫性と効率的なビデオナラティブのための適応型メモリのフロー
- Authors: Sihui Ji, Xi Chen, Shuai Yang, Xin Tao, Pengfei Wan, Hengshuang Zhao,
- Abstract要約: 既存のソリューションは、事前に定義された戦略で過去のフレームを圧縮することでメモリを維持する。
我々はこの問題に対処するためにMemFlowを提案する。
MemFlowは、無視可能な負担を伴う、卓越した長いコンテキスト整合性を実現する。
- 参考スコア(独自算出の注目度): 54.07515675393396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The core challenge for streaming video generation is maintaining the content consistency in long context, which poses high requirement for the memory design. Most existing solutions maintain the memory by compressing historical frames with predefined strategies. However, different to-generate video chunks should refer to different historical cues, which is hard to satisfy with fixed strategies. In this work, we propose MemFlow to address this problem. Specifically, before generating the coming chunk, we dynamically update the memory bank by retrieving the most relevant historical frames with the text prompt of this chunk. This design enables narrative coherence even if new event happens or scenario switches in future frames. In addition, during generation, we only activate the most relevant tokens in the memory bank for each query in the attention layers, which effectively guarantees the generation efficiency. In this way, MemFlow achieves outstanding long-context consistency with negligible computation burden (7.9% speed reduction compared with the memory-free baseline) and keeps the compatibility with any streaming video generation model with KV cache.
- Abstract(参考訳): ストリーミングビデオ生成の最大の課題は、長いコンテキストでコンテントの一貫性を維持することだ。
既存のソリューションの多くは、事前に定義された戦略で過去のフレームを圧縮することでメモリを維持している。
しかし、異なるTo-generateビデオチャンクは、固定戦略で満足できない異なる歴史的手がかりを参照すべきである。
本稿では,この問題に対処するためにMemFlowを提案する。
具体的には、次のチャンクを生成する前に、このチャンクのテキストプロンプトで最も関連性の高い履歴フレームを取得することで、メモリバンクを動的に更新する。
この設計は、新しいイベントや将来のフレームでシナリオスイッチが発生したとしても、物語コヒーレンスを可能にする。
さらに、生成中は、アテンション層内のクエリ毎にメモリバンク内の最も関連性の高いトークンのみを起動し、生成効率を効果的に保証します。
このようにMemFlowは、無視できる計算負荷(メモリフリーのベースラインと比較して7.9%の速度低下)と優れた長期的一貫性を実現し、KVキャッシュを備えたストリーミングビデオ生成モデルとの互換性を維持する。
関連論文リスト
- Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z) - Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval [33.15952106579093]
歴史的文脈をメモリとして利用して映像生成を行うコンテキスト・アズ・メモリを提案する。
歴史的文脈を全て組み込むという膨大な計算オーバーヘッドを考慮すると、メモリ検索モジュールを提案する。
実験により, コンテキスト・アズ・メモリは, SOTAと比較して, 対話型長ビデオ生成において優れたメモリ能力を実現することが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:05Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - MemFlow: Optical Flow Estimation and Prediction with Memory [54.22820729477756]
本稿では,メモリを用いた光フロー推定と予測をリアルタイムに行うMemFlowを提案する。
本手法では,メモリの読み出しと更新を行うモジュールをリアルタイムに収集する。
われわれのアプローチは、過去の観測に基づいて、将来の光流の予測にシームレスに拡張する。
論文 参考訳(メタデータ) (2024-04-07T04:56:58Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。