論文の概要: CamCtrl3D: Single-Image Scene Exploration with Precise 3D Camera Control
- arxiv url: http://arxiv.org/abs/2501.06006v1
- Date: Fri, 10 Jan 2025 14:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:20.328042
- Title: CamCtrl3D: Single-Image Scene Exploration with Precise 3D Camera Control
- Title(参考訳): CamCtrl3D:精密3Dカメラ制御による単一画像撮影
- Authors: Stefan Popov, Amit Raj, Michael Krainin, Yuanzhen Li, William T. Freeman, Michael Rubinstein,
- Abstract要約: 本稿では,1枚の画像と所定のカメラ軌跡からシーンのフライスルー映像を生成する手法を提案する。
4つの手法を用いて,UNetデノイザをカメラ軌道上に配置する。
私たちは、シーン間のスケール一貫性のために、データセット内のカメラ位置を調整し、シーン探索モデルCamCtrl3Dをトレーニングし、最先端の結果を示します。
- 参考スコア(独自算出の注目度): 39.20528937415251
- License:
- Abstract: We propose a method for generating fly-through videos of a scene, from a single image and a given camera trajectory. We build upon an image-to-video latent diffusion model. We condition its UNet denoiser on the camera trajectory, using four techniques. (1) We condition the UNet's temporal blocks on raw camera extrinsics, similar to MotionCtrl. (2) We use images containing camera rays and directions, similar to CameraCtrl. (3) We reproject the initial image to subsequent frames and use the resulting video as a condition. (4) We use 2D<=>3D transformers to introduce a global 3D representation, which implicitly conditions on the camera poses. We combine all conditions in a ContolNet-style architecture. We then propose a metric that evaluates overall video quality and the ability to preserve details with view changes, which we use to analyze the trade-offs of individual and combined conditions. Finally, we identify an optimal combination of conditions. We calibrate camera positions in our datasets for scale consistency across scenes, and we train our scene exploration model, CamCtrl3D, demonstrating state-of-theart results.
- Abstract(参考訳): 本稿では,1枚の画像と所定のカメラ軌跡からシーンのフライスルー映像を生成する手法を提案する。
画像から映像への潜伏拡散モデルを構築した。
4つの手法を用いて,UNetデノイザをカメラ軌道上に配置する。
1)UNetの時間ブロックを、MotionCtrlと同様の生カメラ外部に設定する。
2)CameraCtrlと同様,カメラ線と方向を含む画像を使用する。
(3) 初期画像を後続のフレームに再計画し, 結果の映像を条件として利用する。
(4) 2D<=>3Dトランスフォーマーを用いてグローバルな3D表現を導入する。
すべての条件をContolNetスタイルのアーキテクチャで組み合わせます。
次に、映像の画質とビュー変更による細部保存能力を評価する指標を提案し、それらを用いて、個々の条件と組み合わせた条件のトレードオフを分析する。
最後に、最適な条件の組み合わせを特定する。
私たちは、シーン間のスケール一貫性のために、データセット内のカメラ位置を調整し、シーン探索モデルCamCtrl3Dをトレーニングし、最先端の結果を示します。
関連論文リスト
- Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting [76.02450110026747]
生物学的ビジョンにインスパイアされたイベントカメラは、時間分解能の高い画素の強度を非同期に記録する。
本稿では,イベントカメラの利点を3DGSにシームレスに統合するイベント支援フリートラジェクトリ3DGSを提案する。
提案手法を,パブリックタンクとテンプルのベンチマークと,新たに収集した実世界のデータセットであるRealEv-DAVISで評価した。
論文 参考訳(メタデータ) (2024-10-20T13:44:24Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Controlling Space and Time with Diffusion Models [34.7002868116714]
4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。
我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)データに関する共同トレーニングを提唱する。
4DiMは、パノラマ縫合の改善、ビデオ翻訳のためのポーズ付きビデオ、その他いくつかのタスクにも使用されている。
論文 参考訳(メタデータ) (2024-07-10T17:23:33Z) - CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。
生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。
実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-04T17:27:19Z) - FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses
via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。
これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。
本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T20:58:46Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。