論文の概要: Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval
- arxiv url: http://arxiv.org/abs/2506.03141v1
- Date: Tue, 03 Jun 2025 17:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.987243
- Title: Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval
- Title(参考訳): メモリとしてのコンテキスト: メモリ検索によるシーン一貫性のある対話型ロングビデオ生成
- Authors: Jiwen Yu, Jianhong Bai, Yiran Qin, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu,
- Abstract要約: 歴史的文脈をメモリとして利用して映像生成を行うコンテキスト・アズ・メモリを提案する。
歴史的文脈を全て組み込むという膨大な計算オーバーヘッドを考慮すると、メモリ検索モジュールを提案する。
実験により, コンテキスト・アズ・メモリは, SOTAと比較して, 対話型長ビデオ生成において優れたメモリ能力を実現することが示された。
- 参考スコア(独自算出の注目度): 33.15952106579093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in interactive video generation have shown promising results, yet existing approaches struggle with scene-consistent memory capabilities in long video generation due to limited use of historical context. In this work, we propose Context-as-Memory, which utilizes historical context as memory for video generation. It includes two simple yet effective designs: (1) storing context in frame format without additional post-processing; (2) conditioning by concatenating context and frames to be predicted along the frame dimension at the input, requiring no external control modules. Furthermore, considering the enormous computational overhead of incorporating all historical context, we propose the Memory Retrieval module to select truly relevant context frames by determining FOV (Field of View) overlap between camera poses, which significantly reduces the number of candidate frames without substantial information loss. Experiments demonstrate that Context-as-Memory achieves superior memory capabilities in interactive long video generation compared to SOTAs, even generalizing effectively to open-domain scenarios not seen during training. The link of our project page is https://context-as-memory.github.io/.
- Abstract(参考訳): 近年のインタラクティブな映像生成の進歩は有望な成果を示しているが、既存の手法では、歴史的文脈の限られた使用により、長時間の映像生成においてシーン一貫性のある記憶能力に苦慮している。
本研究では,歴史的文脈をメモリとして利用して映像生成を行うコンテキスト・アズ・メモリを提案する。
1) 追加の後処理なしでコンテキストをフレーム形式で保存すること、(2) 入力時のフレーム次元に沿って予測されるコンテキストとフレームをコンディショニングすることで、外部制御モジュールを必要としないこと、である。
さらに,すべての歴史的文脈を取り入れた膨大な計算オーバーヘッドを考慮すると,カメラポーズ間のFOV(Field of View)重なりを判断して,真に関連するコンテキストフレームを選択するメモリ検索モジュールを提案する。
実験により、コンテキスト・アズ・メモリは、SOTAと比較してインタラクティブな長時間ビデオ生成において優れたメモリ能力を実現し、トレーニング中に見えないオープンドメインシナリオに効果的に一般化することを示した。
プロジェクトページのリンクはhttps://context-as- memory.github.io/です。
関連論文リスト
- InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - XMem++: Production-level Video Segmentation From Few Annotated Frames [32.68978079571079]
本稿では,既存のメモリベースモデルを改善する半教師付きビデオオブジェクトセグメンテーション(SSVOS)モデルであるXMem++を提案する。
本手法は,要求されるフレームアノテーション数を低く保ちながら,高度に一貫した結果を抽出することができる。
我々は,難易度(部分的・複数クラス)のセグメンテーションシナリオと長大なビデオ上でのSOTA性能を実証する。
論文 参考訳(メタデータ) (2023-07-29T11:18:23Z) - READMem: Robust Embedding Association for a Diverse Memory in
Unconstrained Video Object Segmentation [24.813416082160224]
制約のないビデオを扱うためのsVOSメソッドのためのモジュラーフレームワークであるREADMemを提示する。
本稿では、メモリに格納された埋め込みと、更新プロセス中にクエリ埋め込みとを堅牢に関連付けることを提案する。
提案手法は,LV(Long-time Video dataset)において,短いシーケンスのパフォーマンスを損なうことなく,競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T08:31:16Z) - Memory Efficient Temporal & Visual Graph Model for Unsupervised Video
Domain Adaptation [50.158454960223274]
既存のビデオドメイン適応(DA)手法は、ビデオフレームの時間的組み合わせを全て格納するか、ソースとターゲットのビデオをペアにする必要がある。
本稿では,メモリ効率の高いグラフベースビデオDA手法を提案する。
論文 参考訳(メタデータ) (2022-08-13T02:56:10Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Local-Global Context Aware Transformer for Language-Guided Video
Segmentation [103.35509224722097]
言語誘導ビデオセグメンテーション(LVS)の課題について検討する。
そこで我々は,Transformerアーキテクチャを有限メモリで拡張し,動画全体を言語表現で効率的にクエリするLocaterを提案する。
LVSモデルの視覚的接地能力を徹底的に検討するため、新しいLVSデータセットであるA2D-S+をA2D-Sデータセット上に構築する。
論文 参考訳(メタデータ) (2022-03-18T07:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。