論文の概要: CamDirector: Towards Long-Term Coherent Video Trajectory Editing
- arxiv url: http://arxiv.org/abs/2603.02256v1
- Date: Fri, 27 Feb 2026 19:23:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.468828
- Title: CamDirector: Towards Long-Term Coherent Video Trajectory Editing
- Title(参考訳): CamDirector: 長期的なコヒーレントなビデオトラック編集を目指して
- Authors: Zhihao Shi, Kejia Yin, Weilin Wan, Yuhongze Zhou, Yuanhao Yu, Xinxin Zuo, Qiang Sun, Juwei Lu,
- Abstract要約: ビデオ(カメラ)軌跡編集は、ユーザーが定義したカメラパスに従う新しいビデオの合成を目的としている。
我々は、ハイブリッドワープ方式により、ソースビデオ全体にわたって情報を明示的に集約する新しいVTEフレームワークを提案する。
また、iPhone-PTZは、様々なカメラモーションと大きな軌道変動を持つ新しいVTEベンチマークである。
- 参考スコア(独自算出の注目度): 25.122236629305032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video (camera) trajectory editing aims to synthesize new videos that follow user-defined camera paths while preserving scene content and plausibly inpainting previously unseen regions, upgrading amateur footage into professionally styled videos. Existing VTE methods struggle with precise camera control and long-range consistency because they either inject target poses through a limited-capacity embedding or rely on single-frame warping with only implicit cross-frame aggregation in video diffusion models. To address these issues, we introduce a new VTE framework that 1) explicitly aggregates information across the entire source video via a hybrid warping scheme. Specifically, static regions are progressively fused into a world cache then rendered to target camera poses, while dynamic regions are directly warped; their fusion yields globally consistent coarse frames that guide refinement. 2) processes video segments jointly with their history via a history-guided autoregressive diffusion model, while the world cache is incrementally updated to reinforce already inpainted content, enabling long-term temporal coherence. Finally, we present iPhone-PTZ, a new VTE benchmark with diverse camera motions and large trajectory variations, and achieve state-of-the-art performance with fewer parameters.
- Abstract(参考訳): ビデオ(カメラ)トラジェクトリ編集は、シーンコンテンツを保持しながら、ユーザーが定義したカメラパスに従う新しいビデオを合成することを目的としており、これまで見えなかった領域をペイントし、アマチュア映像をプロフェッショナルなスタイルの動画にアップグレードすることを目的としている。
既存のVTEメソッドは、制限容量の埋め込みを通じてターゲットのポーズを注入するか、ビデオ拡散モデルにおいて暗黙のクロスフレームアグリゲーションしか持たない単一フレームワープに依存しているため、正確なカメラ制御と長距離一貫性に苦慮している。
これらの問題に対処するために、我々は新しいVTEフレームワークを導入する。
1)ハイブリッドワープ方式により,ソースビデオ全体の情報を明示的に集約する。
具体的には、静的領域は徐々にワールドキャッシュに融合し、ターゲットカメラのポーズにレンダリングされ、動的領域は直接ワープされる。
2) ビデオセグメントは履歴誘導自己回帰拡散モデルを用いて履歴と共同で処理し, ワールドキャッシュはインクリメンタルに更新され, すでに塗布されているコンテンツを補強し, 長期間の時間的コヒーレンスを可能にする。
最後に,多彩なカメラモーションと大きな軌道変動を持つ新しいVTEベンチマークであるiPhone-PTZを提案する。
関連論文リスト
- Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文 参考訳(メタデータ) (2025-12-18T20:03:05Z) - Generative View Stitching [14.38845535978026]
カメラ誘導映像生成のためのGVS(Generative View Stitching)を提案する。
GVSは、生成されたシーンが予め定義されたカメラ軌跡のすべての部分に忠実になるように、全シーケンスを並列にサンプリングする。
GVSは、安定的で、衝突のない、フレーム間一貫性のあるカメラ誘導ビデオ生成を実現し、様々な事前定義されたカメラパスのループを閉じる。
論文 参考訳(メタデータ) (2025-10-28T17:59:58Z) - Long Context Tuning for Video Generation [63.060794860098795]
Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。
本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。
実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文 参考訳(メタデータ) (2025-03-13T17:40:07Z) - RoMo: Robust Motion Segmentation Improves Structure from Motion [46.77236343300953]
本稿では,固定世界フレームを移動中のシーンの構成要素を特定するために,映像に基づくモーションセグメンテーションの新たなアプローチを提案する。
我々の単純かつ効果的な反復法であるRoMoは、光フローとエピポーラキューと事前訓練されたビデオセグメンテーションモデルを組み合わせたものである。
さらに重要なのは、市販のSfMパイプラインとセグメンテーションマスクを組み合わせることで、ダイナミックなコンテンツを持つシーンに対する最先端のカメラキャリブレーションを新たに確立し、既存の手法を実質的なマージンで上回ることだ。
論文 参考訳(メタデータ) (2024-11-27T01:09:56Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。
本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文 参考訳(メタデータ) (2023-12-17T09:05:56Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。