論文の概要: MemCam: Memory-Augmented Camera Control for Consistent Video Generation
- arxiv url: http://arxiv.org/abs/2603.26193v1
- Date: Fri, 27 Mar 2026 09:11:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.417496
- Title: MemCam: Memory-Augmented Camera Control for Consistent Video Generation
- Title(参考訳): MemCam: Consistent Video Generationのためのメモリ拡張カメラ制御
- Authors: Xinhang Gao, Junlin Guan, Shuhan Luo, Wenzhuo Li, Guanghuan Tan, Jiacheng Wang,
- Abstract要約: 既存の手法は、ダイナミックカメラ制御下での長時間のビデオ生成において、シーンの一貫性を維持するのに苦労する。
MemCamは、以前生成されたフレームを外部メモリとして扱うメモリ拡張インタラクティブビデオ生成アプローチである。
MemCamは、シーンの一貫性という点で、オープンソースの最先端のアプローチを大きく上回っている。
- 参考スコア(独自算出の注目度): 2.6353739437625348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive video generation has significant potential for scene simulation and video creation. However, existing methods often struggle with maintaining scene consistency during long video generation under dynamic camera control due to limited contextual information. To address this challenge, we propose MemCam, a memory-augmented interactive video generation approach that treats previously generated frames as external memory and leverages them as contextual conditioning to achieve controllable camera viewpoints with high scene consistency. To enable longer and more relevant context, we design a context compression module that encodes memory frames into compact representations and employs co-visibility-based selection to dynamically retrieve the most relevant historical frames, thereby reducing computational overhead while enriching contextual information. Experiments on interactive video generation tasks show that MemCam significantly outperforms existing baseline methods as well as open-source state-of-the-art approaches in terms of scene consistency, particularly in long video scenarios with large camera rotations.
- Abstract(参考訳): インタラクティブなビデオ生成は、シーンシミュレーションとビデオ生成において大きな可能性を秘めている。
しかし、既存の手法では、コンテキスト情報に制限があるため、ダイナミックカメラ制御下での長時間のビデオ生成において、シーンの一貫性を維持するのに苦労することが多い。
この課題に対処するため,メモリ拡張型インタラクティブビデオ生成手法であるMemCamを提案する。
本研究では,メモリフレームをコンパクトな表現にエンコードするコンテキスト圧縮モジュールを設計し,コビジュアビリティに基づく選択により,最も関連性の高い履歴フレームを動的に検索し,文脈情報を充実させながら計算オーバーヘッドを低減する。
インタラクティブなビデオ生成タスクの実験は、MemCamが既存のベースライン手法と、特に大きなカメラ回転を伴う長いビデオシナリオにおいて、シーンの一貫性の観点から、最先端のオープンソースアプローチを著しく上回っていることを示している。
関連論文リスト
- VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory [55.73900731190389]
Surfel-Indexed View Memory (VMem) は、過去のビューを記憶するメモリモジュールであり、それらが観測した3次元表面要素(サーフェル)に基づいて幾何学的にインデックス化することで、過去のビューを記憶する。
VMemは、新しいビューを生成する際に、最も関連性の高い過去のビューを効率的に検索することを可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:59:56Z) - Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval [33.15952106579093]
歴史的文脈をメモリとして利用して映像生成を行うコンテキスト・アズ・メモリを提案する。
歴史的文脈を全て組み込むという膨大な計算オーバーヘッドを考慮すると、メモリ検索モジュールを提案する。
実験により, コンテキスト・アズ・メモリは, SOTAと比較して, 対話型長ビデオ生成において優れたメモリ能力を実現することが示された。
論文 参考訳(メタデータ) (2025-06-03T17:59:05Z) - Modular-Cam: Modular Dynamic Camera-view Video Generation with LLM [43.889033468684445]
本稿では,新しいテキスト・ビデオ生成手法,すなわちModular-Camを提案する。
与えられた複雑なプロンプトをよりよく理解するために、大きな言語モデルを用いてユーザ命令を解析する。
カメラビューにマッチするダイナミックなシーンを含む映像を生成するために,広範に使用されている時間変換器を組み込んだ。
論文 参考訳(メタデータ) (2025-04-16T13:04:01Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。