論文の概要: CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation
- arxiv url: http://arxiv.org/abs/2604.09201v1
- Date: Fri, 10 Apr 2026 10:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.826118
- Title: CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation
- Title(参考訳): CT-1:ビジョン・ランゲージ・カメラモデルによる空間推論知識のカメラ制御可能なビデオ生成
- Authors: Haoyu Zhao, Zihao Zhang, Jiaxi Gu, Haoran Chen, Qingping Zheng, Pin Tang, Yeyin Jin, Yuang Zhang, Junqi Cheng, Zenghui Lu, Peng Shu, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: カメラトランスフォーマー1(Camera Transformer 1)は、カメラ軌跡を正確に推定し、空間推論の知識を映像生成に伝達する特殊モデルである。
我々のフレームワークは空間的推論とビデオ合成のギャップを埋めることに成功し、忠実で高品質なカメラ制御可能なビデオを生み出した。
- 参考スコア(独自算出の注目度): 84.82778089348285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera-controllable video generation aims to synthesize videos with flexible and physically plausible camera movements. However, existing methods either provide imprecise camera control from text prompts or rely on labor-intensive manual camera trajectory parameters, limiting their use in automated scenarios. To address these issues, we propose a novel Vision-Language-Camera model, termed CT-1 (Camera Transformer 1), a specialized model designed to transfer spatial reasoning knowledge to video generation by accurately estimating camera trajectories. Built upon vision-language modules and a Diffusion Transformer model, CT-1 employs a Wavelet-based Regularization Loss in the frequency domain to effectively learn complex camera trajectory distributions. These trajectories are integrated into a video diffusion model to enable spatially aware camera control that aligns with user intentions. To facilitate the training of CT-1, we design a dedicated data curation pipeline and construct CT-200K, a large-scale dataset containing over 47M frames. Experimental results demonstrate that our framework successfully bridges the gap between spatial reasoning and video synthesis, yielding faithful and high-quality camera-controllable videos and improving camera control accuracy by 25.7% over prior methods.
- Abstract(参考訳): カメラ制御可能なビデオ生成は、フレキシブルで物理的に可視なカメラの動きでビデオを合成することを目的としている。
しかし、既存の方法は、テキストプロンプトから不正確なカメラ制御を提供するか、労働集約的な手動カメラ軌跡パラメータに依存し、自動化されたシナリオでの使用を制限する。
これらの問題に対処するため, カメラ軌跡を正確に推定し, 空間推論の知識を映像生成に伝達する特別モデルとして, CT-1 (Camera Transformer 1) と呼ばれる新しいビジョン・ランゲージ・カメラモデルを提案する。
視覚言語モジュールと拡散トランスフォーマーモデルに基づいて構築されたCT-1は、ウェーブレットベースの正規化損失を用いて複雑なカメラ軌道分布を効果的に学習する。
これらのトラジェクトリはビデオ拡散モデルに統合され、ユーザの意図に合わせて空間的に認識されたカメラ制御を可能にする。
CT-1のトレーニングを容易にするため,専用データキュレーションパイプラインを設計し,47Mフレームを超える大規模データセットであるCT-200Kを構築した。
実験の結果,空間的推論と映像合成のギャップを埋めることに成功し,忠実で高品質なカメラ制御可能なビデオが得られ,従来手法よりも25.7%精度が向上した。
関連論文リスト
- Unified Camera Positional Encoding for Controlled Video Generation [48.5789182990001]
トランスフォーマーは、3D知覚、ビデオ生成、自律運転のための世界モデル、そしてAIを具体化するための普遍的なバックボーンとして登場した。
本稿では、6-DoFポーズ、内在性、レンズ歪みを含む完全なカメラ情報を統一する幾何学一貫性表現であるRelative Rayを紹介する。
システム的なトレーニングと評価を容易にするため,広い範囲のカメラモーションとレンズタイプをカバーする大規模なビデオデータセットを構築した。
論文 参考訳(メタデータ) (2025-12-08T07:34:01Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。