論文の概要: CamCtrl3D: Single-Image Scene Exploration with Precise 3D Camera Control
- arxiv url: http://arxiv.org/abs/2501.06006v2
- Date: Fri, 31 Jan 2025 17:26:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:58:57.984041
- Title: CamCtrl3D: Single-Image Scene Exploration with Precise 3D Camera Control
- Title(参考訳): CamCtrl3D:精密3Dカメラ制御による単一画像撮影
- Authors: Stefan Popov, Amit Raj, Michael Krainin, Yuanzhen Li, William T. Freeman, Michael Rubinstein,
- Abstract要約: 本稿では,1枚の画像と所定のカメラ軌跡からシーンのフライスルー映像を生成する手法を提案する。
4つの手法を用いて,UNetデノイザをカメラ軌道上に配置する。
私たちは、シーン間のスケール一貫性のために、データセット内のカメラ位置を調整し、シーン探索モデルCamCtrl3Dをトレーニングし、最先端の結果を示します。
- 参考スコア(独自算出の注目度): 39.20528937415251
- License:
- Abstract: We propose a method for generating fly-through videos of a scene, from a single image and a given camera trajectory. We build upon an image-to-video latent diffusion model. We condition its UNet denoiser on the camera trajectory, using four techniques. (1) We condition the UNet's temporal blocks on raw camera extrinsics, similar to MotionCtrl. (2) We use images containing camera rays and directions, similar to CameraCtrl. (3) We reproject the initial image to subsequent frames and use the resulting video as a condition. (4) We use 2D<=>3D transformers to introduce a global 3D representation, which implicitly conditions on the camera poses. We combine all conditions in a ContolNet-style architecture. We then propose a metric that evaluates overall video quality and the ability to preserve details with view changes, which we use to analyze the trade-offs of individual and combined conditions. Finally, we identify an optimal combination of conditions. We calibrate camera positions in our datasets for scale consistency across scenes, and we train our scene exploration model, CamCtrl3D, demonstrating state-of-theart results.
- Abstract(参考訳): 本稿では,1枚の画像と所定のカメラ軌跡からシーンのフライスルー映像を生成する手法を提案する。
画像から映像への潜伏拡散モデルを構築した。
4つの手法を用いて,UNetデノイザをカメラ軌道上に配置する。
1)UNetの時間ブロックを、MotionCtrlと同様の生カメラ外部に設定する。
2)CameraCtrlと同様,カメラ線と方向を含む画像を使用する。
(3) 初期画像を後続のフレームに再計画し, 結果の映像を条件として利用する。
(4) 2D<=>3Dトランスフォーマーを用いてグローバルな3D表現を導入する。
すべての条件をContolNetスタイルのアーキテクチャで組み合わせます。
次に、映像の画質とビュー変更による細部保存能力を評価する指標を提案し、それらを用いて、個々の条件と組み合わせた条件のトレードオフを分析する。
最後に、最適な条件の組み合わせを特定する。
私たちは、シーン間のスケール一貫性のために、データセット内のカメラ位置を調整し、シーン探索モデルCamCtrl3Dをトレーニングし、最先端の結果を示します。
関連論文リスト
- RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control [10.939379611590333]
RealCam-I2Vは拡散型ビデオ生成フレームワークである。
単分子距離深度推定を統合し、前処理ステップで3次元シーン再構成を確立する。
トレーニング中、再構成された3Dシーンは、絶対値に対するカメラパラメータのスケーリングを可能にする。
RealCam-I2Vは、RealEstate10Kおよびドメイン外画像の制御性とビデオ品質を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-14T10:21:49Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting [76.02450110026747]
生物学的ビジョンにインスパイアされたイベントカメラは、時間分解能の高い画素の強度を非同期に記録する。
本稿では,イベントカメラの利点を3DGSにシームレスに統合するイベント支援フリートラジェクトリ3DGSを提案する。
提案手法を,パブリックタンクとテンプルのベンチマークと,新たに収集した実世界のデータセットであるRealEv-DAVISで評価した。
論文 参考訳(メタデータ) (2024-10-20T13:44:24Z) - CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。
生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。
実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-04T17:27:19Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。