論文の概要: Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory
- arxiv url: http://arxiv.org/abs/2601.16296v1
- Date: Thu, 22 Jan 2026 19:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.391496
- Title: Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory
- Title(参考訳): Memory-V2V: メモリによるビデオ間拡散モデルの拡張
- Authors: Dohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan, Hyeonho Jeong,
- Abstract要約: 現在のビデオエディタは、シーケンシャルな編集の相互一貫性を維持するのに苦労している。
Memory-V2Vは、既存のビデオ間モデルを明示的なメモリで拡張するフレームワークである。
メモリ-V2Vは、計算オーバーヘッドを最小限に抑えながら、はるかに相反するビデオを生成する。
- 参考スコア(独自算出の注目度): 63.32726513381937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent foundational video-to-video diffusion models have achieved impressive results in editing user provided videos by modifying appearance, motion, or camera movement. However, real-world video editing is often an iterative process, where users refine results across multiple rounds of interaction. In this multi-turn setting, current video editors struggle to maintain cross-consistency across sequential edits. In this work, we tackle, for the first time, the problem of cross-consistency in multi-turn video editing and introduce Memory-V2V, a simple, yet effective framework that augments existing video-to-video models with explicit memory. Given an external cache of previously edited videos, Memory-V2V employs accurate retrieval and dynamic tokenization strategies to condition the current editing step on prior results. To further mitigate redundancy and computational overhead, we propose a learnable token compressor within the DiT backbone that compresses redundant conditioning tokens while preserving essential visual cues, achieving an overall speedup of 30%. We validate Memory-V2V on challenging tasks including video novel view synthesis and text-conditioned long video editing. Extensive experiments show that Memory-V2V produces videos that are significantly more cross-consistent with minimal computational overhead, while maintaining or even improving task-specific performance over state-of-the-art baselines. Project page: https://dohunlee1.github.io/MemoryV2V
- Abstract(参考訳): 近年の動画拡散モデルでは、外観、動き、カメラの動きを変化させることで、ユーザーが提供した動画を編集することで印象的な結果が得られている。
しかし、実世界のビデオ編集はしばしば反復的なプロセスであり、ユーザーは複数の対話ラウンドで結果を洗練する。
このマルチターン設定では、現在のビデオエディタはシーケンシャルな編集の相互一貫性を維持するのに苦労している。
本研究では,マルチターンビデオ編集における相互整合性の問題に初めて取り組み,既存のビデオからビデオへのモデルを明示的なメモリで拡張するシンプルかつ効果的なフレームワークであるMemory-V2Vを導入する。
以前に編集されたビデオの外部キャッシュが与えられた後、Memory-V2Vは正確な検索と動的トークン化戦略を使用して、現在の編集ステップを以前の結果に設定する。
冗長性と計算オーバーヘッドの低減を図るため,重要な視覚的手がかりを保ちながら冗長な条件付きトークンを圧縮し,全体の30%の高速化を実現したDiTバックボーン内の学習可能なトークン圧縮器を提案する。
ビデオノベルビュー合成やテキスト条件の長いビデオ編集などの課題に対して,メモリ-V2Vを検証した。
大規模な実験によると、Memory-V2Vは計算オーバーヘッドを最小限に抑えながら、最先端のベースラインよりもタスク固有のパフォーマンスを維持または改善したビデオを生成する。
プロジェクトページ: https://dohunlee1.github.io/MemoryV2V
関連論文リスト
- EasyV2V: A High-quality Instruction-based Video Editing Framework [108.78294392167017]
キャプションemphEasyV2Vは、命令ベースのビデオ編集のためのフレームワークである。
EasyV2Vは、例えば video+text、 video+mask+reference+、最先端のビデオ編集結果などの柔軟な入力で動作する。
論文 参考訳(メタデータ) (2025-12-18T18:59:57Z) - Déjà Vu: Efficient Video-Language Query Engine with Learning-based Inter-Frame Computation Reuse [13.680753232748705]
本稿では、連続するフレーム間の計算を再利用することで、VTベースのビデオLMを高速化するビデオ言語クエリエンジンであるD'eja Vuを紹介する。
コアとなるReuseViTは、ビデオLMタスク用に特別に設計された修正ViTモデルであり、フレーム間の再利用機会を検出することを学ぶ。
D'eja Vuは、2%のエラーバウンド内で最大2.64倍の埋め込み生成を加速し、大規模なビデオ解析のためのビデオLMの実用性を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2025-06-17T01:59:10Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - ReWind: Understanding Long Videos with Instructed Learnable Memory [8.002949551539297]
VLM(Vision-Language Models)は、テキスト情報と視覚情報の統合的な理解を必要とするアプリケーションに不可欠である。
本稿では,時間的忠実さを保ちながら,より効率的な長時間ビデオ理解を実現するためのメモリベースの新しいVLMであるReWindを紹介する。
本稿では,視覚的質問応答(VQA)と時間的グラウンド処理におけるReWindの優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2024-11-23T13:23:22Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。
Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文 参考訳(メタデータ) (2023-03-08T17:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。