論文の概要: CETCAM: Camera-Controllable Video Generation via Consistent and Extensible Tokenization
- arxiv url: http://arxiv.org/abs/2512.19020v1
- Date: Mon, 22 Dec 2025 04:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.615447
- Title: CETCAM: Camera-Controllable Video Generation via Consistent and Extensible Tokenization
- Title(参考訳): CETCAM: 一貫性と拡張性を持ったトークン化によるカメラ制御可能なビデオ生成
- Authors: Zelin Zhao, Xinyu Gong, Bangya Liu, Ziyang Song, Jun Zhang, Suhui Wu, Yongxin Chen, Hao Zhang,
- Abstract要約: CETCAMはカメラ制御可能なビデオ生成フレームワークである。
一貫性のあるトークン化スキームによって、カメラアノテーションは不要になる。
多様な生のビデオデータから堅牢なカメラ制御性を学び、高忠実度データセットを使用してきめ細かい視覚的品質を洗練する。
- 参考スコア(独自算出の注目度): 32.42754288735215
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Achieving precise camera control in video generation remains challenging, as existing methods often rely on camera pose annotations that are difficult to scale to large and dynamic datasets and are frequently inconsistent with depth estimation, leading to train-test discrepancies. We introduce CETCAM, a camera-controllable video generation framework that eliminates the need for camera annotations through a consistent and extensible tokenization scheme. CETCAM leverages recent advances in geometry foundation models, such as VGGT, to estimate depth and camera parameters and converts them into unified, geometry-aware tokens. These tokens are seamlessly integrated into a pretrained video diffusion backbone via lightweight context blocks. Trained in two progressive stages, CETCAM first learns robust camera controllability from diverse raw video data and then refines fine-grained visual quality using curated high-fidelity datasets. Extensive experiments across multiple benchmarks demonstrate state-of-the-art geometric consistency, temporal stability, and visual realism. Moreover, CETCAM exhibits strong adaptability to additional control modalities, including inpainting and layout control, highlighting its flexibility beyond camera control. The project page is available at https://sjtuytc.github.io/CETCam_project_page.github.io/.
- Abstract(参考訳): ビデオ生成において正確なカメラ制御を実現することは、多くの場合、大規模で動的なデータセットにスケールするのが困難で、深さ推定と矛盾しないアノテーションをカメラのポーズに頼っているため、依然として困難である。
カメラ制御可能なビデオ生成フレームワークであるCETCAMを導入し,一貫した拡張可能なトークン化方式により,カメラアノテーションの必要性を解消する。
CETCAMは、VGGTのような最近の幾何学基礎モデルの進歩を利用して、深さとカメラパラメータを推定し、それらを統一された幾何学的トークンに変換する。
これらのトークンは、軽量なコンテキストブロックを介して、トレーニング済みのビデオ拡散バックボーンにシームレスに統合される。
2つの段階で訓練されたCETCAMは、まず多様な生のビデオデータから堅牢なカメラ制御性を学習し、その後、キュレートされた高忠実度データセットを使用してきめ細かい視覚的品質を洗練する。
複数のベンチマークにわたる大規模な実験は、最先端の幾何学的整合性、時間的安定性、視覚リアリズムを示している。
さらに、CETCAMは、塗装やレイアウト制御など、追加の制御モードへの強力な適応性を示し、カメラ制御を超えた柔軟性を強調している。
プロジェクトページはhttps://sjtuytc.github.io/CETCam_project_page.github.io/で公開されている。
関連論文リスト
- Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文 参考訳(メタデータ) (2025-12-18T20:03:05Z) - Unified Camera Positional Encoding for Controlled Video Generation [48.5789182990001]
トランスフォーマーは、3D知覚、ビデオ生成、自律運転のための世界モデル、そしてAIを具体化するための普遍的なバックボーンとして登場した。
本稿では、6-DoFポーズ、内在性、レンズ歪みを含む完全なカメラ情報を統一する幾何学一貫性表現であるRelative Rayを紹介する。
システム的なトレーニングと評価を容易にするため,広い範囲のカメラモーションとレンズタイプをカバーする大規模なビデオデータセットを構築した。
論文 参考訳(メタデータ) (2025-12-08T07:34:01Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - CamI2V: Camera-Controlled Image-to-Video Diffusion Model [11.762824216082508]
統合カメラポーズは、ビデオ拡散モデルにおけるユーザフレンドリーで物理インフォームド条件であり、正確なカメラ制御を可能にする。
重要な課題の1つは、幾何学的整合性とカメラ制御性を高めるために、ノイズの多いクロスフレーム相互作用を効果的にモデル化することである。
我々は,条件の品質と不確実性を低減し,ノイズのあるクロスフレーム特徴をノイズのある状態の形で解釈する能力とを革新的に関連付ける。
論文 参考訳(メタデータ) (2024-10-21T12:36:27Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。