Fugu-MT 論文翻訳(概要): CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

論文の概要: CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

arxiv url: http://arxiv.org/abs/2604.09201v1
Date: Fri, 10 Apr 2026 10:43:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-13 17:57:53.826118
Title: CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation
Title（参考訳）: CT-1:ビジョン・ランゲージ・カメラモデルによる空間推論知識のカメラ制御可能なビデオ生成
Authors: Haoyu Zhao, Zihao Zhang, Jiaxi Gu, Haoran Chen, Qingping Zheng, Pin Tang, Yeyin Jin, Yuang Zhang, Junqi Cheng, Zenghui Lu, Peng Shu, Zuxuan Wu, Yu-Gang Jiang,
Abstract要約: カメラトランスフォーマー1(Camera Transformer 1)は、カメラ軌跡を正確に推定し、空間推論の知識を映像生成に伝達する特殊モデルである。我々のフレームワークは空間的推論とビデオ合成のギャップを埋めることに成功し、忠実で高品質なカメラ制御可能なビデオを生み出した。
参考スコア（独自算出の注目度）: 84.82778089348285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Camera-controllable video generation aims to synthesize videos with flexible and physically plausible camera movements. However, existing methods either provide imprecise camera control from text prompts or rely on labor-intensive manual camera trajectory parameters, limiting their use in automated scenarios. To address these issues, we propose a novel Vision-Language-Camera model, termed CT-1 (Camera Transformer 1), a specialized model designed to transfer spatial reasoning knowledge to video generation by accurately estimating camera trajectories. Built upon vision-language modules and a Diffusion Transformer model, CT-1 employs a Wavelet-based Regularization Loss in the frequency domain to effectively learn complex camera trajectory distributions. These trajectories are integrated into a video diffusion model to enable spatially aware camera control that aligns with user intentions. To facilitate the training of CT-1, we design a dedicated data curation pipeline and construct CT-200K, a large-scale dataset containing over 47M frames. Experimental results demonstrate that our framework successfully bridges the gap between spatial reasoning and video synthesis, yielding faithful and high-quality camera-controllable videos and improving camera control accuracy by 25.7% over prior methods.
Abstract（参考訳）: カメラ制御可能なビデオ生成は、フレキシブルで物理的に可視なカメラの動きでビデオを合成することを目的としている。しかし、既存の方法は、テキストプロンプトから不正確なカメラ制御を提供するか、労働集約的な手動カメラ軌跡パラメータに依存し、自動化されたシナリオでの使用を制限する。これらの問題に対処するため, カメラ軌跡を正確に推定し, 空間推論の知識を映像生成に伝達する特別モデルとして, CT-1 (Camera Transformer 1) と呼ばれる新しいビジョン・ランゲージ・カメラモデルを提案する。視覚言語モジュールと拡散トランスフォーマーモデルに基づいて構築されたCT-1は、ウェーブレットベースの正規化損失を用いて複雑なカメラ軌道分布を効果的に学習する。これらのトラジェクトリはビデオ拡散モデルに統合され、ユーザの意図に合わせて空間的に認識されたカメラ制御を可能にする。 CT-1のトレーニングを容易にするため,専用データキュレーションパイプラインを設計し,47Mフレームを超える大規模データセットであるCT-200Kを構築した。実験の結果,空間的推論と映像合成のギャップを埋めることに成功し,忠実で高品質なカメラ制御可能なビデオが得られ,従来手法よりも25.7%精度が向上した。

論文の概要: CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

関連論文リスト