論文の概要: AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2411.18673v1
- Date: Wed, 27 Nov 2024 18:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:27.542942
- Title: AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers
- Title(参考訳): AC3D:ビデオ拡散変換器における3次元カメラ制御の解析と改善
- Authors: Sherwin Bahmani, Ivan Skorokhodov, Guocheng Qian, Aliaksandr Siarohin, Willi Menapace, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov,
- Abstract要約: カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
- 参考スコア(独自算出の注目度): 66.29824750770389
- License:
- Abstract: Numerous works have recently integrated 3D camera control into foundational text-to-video models, but the resulting camera control is often imprecise, and video generation quality suffers. In this work, we analyze camera motion from a first principles perspective, uncovering insights that enable precise 3D camera manipulation without compromising synthesis quality. First, we determine that motion induced by camera movements in videos is low-frequency in nature. This motivates us to adjust train and test pose conditioning schedules, accelerating training convergence while improving visual and motion quality. Then, by probing the representations of an unconditional video diffusion transformer, we observe that they implicitly perform camera pose estimation under the hood, and only a sub-portion of their layers contain the camera information. This suggested us to limit the injection of camera conditioning to a subset of the architecture to prevent interference with other video features, leading to 4x reduction of training parameters, improved training speed and 10% higher visual quality. Finally, we complement the typical dataset for camera control learning with a curated dataset of 20K diverse dynamic videos with stationary cameras. This helps the model disambiguate the difference between camera and scene motion, and improves the dynamics of generated pose-conditioned videos. We compound these findings to design the Advanced 3D Camera Control (AC3D) architecture, the new state-of-the-art model for generative video modeling with camera control.
- Abstract(参考訳): 最近、多くの作品が3Dカメラ制御を基礎となるテキスト・ツー・ビデオモデルに統合しているが、結果として生じるカメラ制御はしばしば不正確であり、ビデオ生成の品質は低下している。
本研究は,合成品質を損なうことなく,正確な3Dカメラ操作を可能にする洞察を明らかにすることを目的として,第1原理の観点からカメラモーションを解析する。
まず、ビデオ中のカメラの動きによって引き起こされる動きは、自然界において低周波であると判断する。
これにより、トレーニングとポーズ条件のスケジュールを調整し、視覚的および運動的品質を改善しながら、トレーニング収束を加速する。
そして, 無条件映像拡散変換器の表現を探索することにより, 内部で暗黙的にカメラポーズ推定を行い, カメラ情報を含む層のみをサブポーションとした。
これにより,カメラコンディショニングをアーキテクチャのサブセットに限定することで,他のビデオ機能との干渉を防止し,トレーニングパラメータの4倍の削減,トレーニング速度の向上,視覚的品質の向上を実現した。
最後に、カメラ制御学習の典型的なデータセットを、静止カメラを用いた20Kの多様なダイナミックビデオのキュレートされたデータセットで補完する。
これにより、モデルがカメラとシーンの動きの違いを曖昧にし、生成されたポーズ条件付きビデオのダイナミックスを改善する。
我々はこれらの知見を合成し、カメラ制御による生成ビデオモデリングのための新しい最先端の3Dカメラ制御(AC3D)アーキテクチャを設計した。
関連論文リスト
- CamI2V: Camera-Controlled Image-to-Video Diffusion Model [11.762824216082508]
本稿では,明示的な物理的制約をモデル設計に統合する必要性を強調した。
ノイズ条件の新たな視点から,すべてのクロスフレーム関係をモデル化するためのエピポーラアテンションを提案する。
領域外画像への強い一般化を維持しつつ、RealEstate10K上でのカメラ制御性を25.5%向上させる。
論文 参考訳(メタデータ) (2024-10-21T12:36:27Z) - Boosting Camera Motion Control for Video Diffusion Transformers [21.151900688555624]
本研究では, トランスフォーマーベース拡散モデル (DiT) がカメラモーションの精度を著しく低下させることを示した。
DiTの持続的な動き劣化に対処するため、カメラモーションガイダンス(CMG)を導入し、カメラ制御を400%以上向上させる。
提案手法はU-NetモデルとDiTモデルの両方に適用され,ビデオ生成タスクに改良されたカメラ制御を提供する。
論文 参考訳(メタデータ) (2024-10-14T17:58:07Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Training-free Camera Control for Video Generation [19.526135830699882]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
論文 参考訳(メタデータ) (2024-06-14T15:33:00Z) - CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。
生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。
実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-04T17:27:19Z) - MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーが希望するコンテンツを作成することができるため、ビデオ生成において制御性は重要な役割を担っている。
既存のモデルは、撮影言語として機能するカメラポーズの正確な制御をほとんど見落としていた。
我々は、テキスト・トゥ・ビデオ(T2V)モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文 参考訳(メタデータ) (2024-04-02T16:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。