論文の概要: DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
- arxiv url: http://arxiv.org/abs/2511.23127v2
- Date: Mon, 01 Dec 2025 18:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 15:37:38.522268
- Title: DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
- Title(参考訳): DualCamCtrl:ジオメトリ対応カメラ制御ビデオ生成のためのデュアルブランチ拡散モデル
- Authors: Hongfei Zhang, Kanghao Chen, Zixin Zhang, Harold Haodong Chen, Yuanhuiyi Lyu, Yuqi Zhang, Shuai Yang, Kun Zhou, Yingcong Chen,
- Abstract要約: カメラ制御ビデオ生成のための新しいエンドツーエンド拡散モデルであるDualCamCtrlを提案する。
本稿では、カメラ一貫性のあるRGBと深度シーケンスを相互に生成するデュアルブランチフレームワークを提案する。
DualCamCtrlは、より一貫したカメラ制御ビデオ生成を実現する。
- 参考スコア(独自算出の注目度): 51.66285725139235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents DualCamCtrl, a novel end-to-end diffusion model for camera-controlled video generation. Recent works have advanced this field by representing camera poses as ray-based conditions, yet they often lack sufficient scene understanding and geometric awareness. DualCamCtrl specifically targets this limitation by introducing a dual-branch framework that mutually generates camera-consistent RGB and depth sequences. To harmonize these two modalities, we further propose the Semantic Guided Mutual Alignment (SIGMA) mechanism, which performs RGB-depth fusion in a semantics-guided and mutually reinforced manner. These designs collectively enable DualCamCtrl to better disentangle appearance and geometry modeling, generating videos that more faithfully adhere to the specified camera trajectories. Additionally, we analyze and reveal the distinct influence of depth and camera poses across denoising stages and further demonstrate that early and late stages play complementary roles in forming global structure and refining local details. Extensive experiments demonstrate that DualCamCtrl achieves more consistent camera-controlled video generation, with over 40\% reduction in camera motion errors compared with prior methods. Our project page: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
- Abstract(参考訳): 本稿では,カメラ制御ビデオ生成のための新しいエンドツーエンド拡散モデルであるDualCamCtrlを提案する。
近年の研究では、カメラのポーズをレイベースの条件として表現することで、この分野を前進させているが、シーンの理解と幾何学的認識が不十分な場合が多い。
DualCamCtrlは、カメラに一貫性のあるRGBと深さシーケンスを相互に生成するデュアルブランチフレームワークを導入することで、この制限を特にターゲットとしている。
これらの2つのモダリティを調和させるため、セマンティックガイド・ミューチュアル・アライメント(SIGMA)機構をさらに提案する。
これらのデザインにより、DualCamCtrlは外観と幾何学的モデリングをより良く切り離し、特定のカメラ軌道に忠実に固執するビデオを生成することができる。
さらに,デノナイズドステージにおける深度とカメラのポーズの影響を解析・明らかにし,グローバルな構造の形成と局所的な詳細の精細化において,早期と後期が相補的な役割を担っていることを示す。
大規模な実験により、DualCamCtrlはより一貫性のあるカメラ制御ビデオ生成を実現し、従来の方法に比べてカメラモーションエラーが40倍以上減少することが示された。
プロジェクトページ:https://soyouthinkyoucantell.github.io/dualcamctrl-page/
関連論文リスト
- PostCam: Camera-Controllable Novel-View Video Generation with Query-Shared Cross-Attention [13.912161562631722]
PostCamは、ダイナミックシーンにおけるカメラトラジェクトリのポストキャプチャ後の編集を可能にする、ノベルビュービデオ生成のためのフレームワークである。
実世界のデータセットと合成データセットの両方の実験により、PostCamは最先端の手法よりも、カメラ制御の精度とビューの一貫性が20%以上向上していることが示された。
論文 参考訳(メタデータ) (2025-11-21T12:05:46Z) - IDCNet: Guided Video Diffusion for Metric-Consistent RGBD Scene Generation with Precise Camera Control [11.830304371371968]
IDC-Netは、明示的なカメラ軌道制御の下でRGB-Dビデオシーケンスを生成するために設計された新しいフレームワークである。
IDC-Netは、生成したシーンシーケンスの視覚的品質と幾何学的整合性の両方において、最先端のアプローチよりも改善されていることを示す。
論文 参考訳(メタデータ) (2025-08-06T07:19:16Z) - Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation [73.73984727616198]
映像生成におけるカメラと人間の動きを正確に制御するための統合フレームワークUni3Cを提案する。
まず,フリーズビデオ生成バックボーンであるPCDControllerで学習したプラグイン・アンド・プレイ制御モジュールを提案する。
第2に,景観点雲とSMPL-X文字をシームレスに統合する推論フェーズの3次元ワールドガイダンスを提案する。
論文 参考訳(メタデータ) (2025-04-21T07:10:41Z) - CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.63787060844409]
CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。
動的シーンの生成を段階的に拡大するアプローチを採っている。
論文 参考訳(メタデータ) (2025-03-13T17:42:01Z) - RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control [12.80337762745075]
RealCam-I2Vはモノクロメートル法深度推定を統合する新しいビデオ生成フレームワークである。
トレーニング中、再構成された3Dシーンは、メトリックスケールに対するカメラパラメータのスケーリングを可能にする。
RealCam-I2Vは、RealEstate10Kおよびドメイン外画像の制御性とビデオ品質を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-14T10:21:49Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーがコンテンツをより正確に作成し、編集できるようにするため、制御性はビデオ生成において重要な役割を果たす。
しかし、既存のモデルは、より深い物語のニュアンスを表現するための映画言語として機能するカメラポーズの制御を欠いている。
我々は、ビデオ拡散モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文 参考訳(メタデータ) (2024-04-02T16:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。