論文の概要: Unified Camera Positional Encoding for Controlled Video Generation
- arxiv url: http://arxiv.org/abs/2512.07237v1
- Date: Mon, 08 Dec 2025 07:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.759062
- Title: Unified Camera Positional Encoding for Controlled Video Generation
- Title(参考訳): 制御ビデオ生成のための一元化カメラ位置符号化
- Authors: Cheng Zhang, Boying Li, Meng Wei, Yan-Pei Cao, Camilo Cruz Gambardella, Dinh Phung, Jianfei Cai,
- Abstract要約: トランスフォーマーは、3D知覚、ビデオ生成、自律運転のための世界モデル、そしてAIを具体化するための普遍的なバックボーンとして登場した。
本稿では、6-DoFポーズ、内在性、レンズ歪みを含む完全なカメラ情報を統一する幾何学一貫性表現であるRelative Rayを紹介する。
システム的なトレーニングと評価を容易にするため,広い範囲のカメラモーションとレンズタイプをカバーする大規模なビデオデータセットを構築した。
- 参考スコア(独自算出の注目度): 48.5789182990001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have emerged as a universal backbone across 3D perception, video generation, and world models for autonomous driving and embodied AI, where understanding camera geometry is essential for grounding visual observations in three-dimensional space. However, existing camera encoding methods often rely on simplified pinhole assumptions, restricting generalization across the diverse intrinsics and lens distortions in real-world cameras. We introduce Relative Ray Encoding, a geometry-consistent representation that unifies complete camera information, including 6-DoF poses, intrinsics, and lens distortions. To evaluate its capability under diverse controllability demands, we adopt camera-controlled text-to-video generation as a testbed task. Within this setting, we further identify pitch and roll as two components effective for Absolute Orientation Encoding, enabling full control over the initial camera orientation. Together, these designs form UCPE (Unified Camera Positional Encoding), which integrates into a pretrained video Diffusion Transformer through a lightweight spatial attention adapter, adding less than 1% trainable parameters while achieving state-of-the-art camera controllability and visual fidelity. To facilitate systematic training and evaluation, we construct a large video dataset covering a wide range of camera motions and lens types. Extensive experiments validate the effectiveness of UCPE in camera-controllable video generation and highlight its potential as a general camera representation for Transformers across future multi-view, video, and 3D tasks. Code will be available at https://github.com/chengzhag/UCPE.
- Abstract(参考訳): トランスフォーマーは、3次元の知覚、ビデオ生成、そして、自律運転と組み込みAIのための世界モデルにまたがる普遍的なバックボーンとして登場した。
しかし、既存のカメラ符号化法は、しばしば単純化されたピンホール仮定に依存し、現実世界のカメラにおける様々な内在性やレンズ歪みの一般化を制限する。
Relative Ray Encodingは、6-DoFポーズ、内在性、レンズ歪みを含む完全なカメラ情報を統一する幾何学的一貫性のある表現である。
多様な制御性要求下での能力を評価するため,テストベッドタスクとしてカメラ制御によるテキスト・ビデオ生成を採用する。
この設定では、ピッチとロールを絶対オリエンテーション符号化に有効な2つのコンポーネントとして同定し、初期カメラの向きを完全に制御できる。
これらの設計はUCPE(Unified Camera Positional Encoding)を形成し、軽量な空間アテンションアダプタを通じて事前訓練されたビデオ拡散トランスフォーマーに統合され、1%未満のトレーニング可能なパラメータを付加し、最先端のカメラ制御性と視覚的忠実性を実現する。
システム的なトレーニングと評価を容易にするため,広い範囲のカメラモーションとレンズタイプをカバーする大規模なビデオデータセットを構築した。
カメラ制御可能なビデオ生成におけるUCPEの有効性を検証し、将来のマルチビュー、ビデオ、および3Dタスクにおけるトランスフォーマーの汎用カメラ表現としての可能性を強調した。
コードはhttps://github.com/chengzhag/UCPE.comから入手できる。
関連論文リスト
- Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation [73.73984727616198]
映像生成におけるカメラと人間の動きを正確に制御するための統合フレームワークUni3Cを提案する。
まず,フリーズビデオ生成バックボーンであるPCDControllerで学習したプラグイン・アンド・プレイ制御モジュールを提案する。
第2に,景観点雲とSMPL-X文字をシームレスに統合する推論フェーズの3次元ワールドガイダンスを提案する。
論文 参考訳(メタデータ) (2025-04-21T07:10:41Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。