論文の概要: CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers
- arxiv url: http://arxiv.org/abs/2405.13195v1
- Date: Tue, 21 May 2024 20:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 02:03:26.393726
- Title: CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers
- Title(参考訳): CamViG:マルチモーダルトランスを用いたカメラによる画像・映像生成
- Authors: Andrew Marmon, Grant Schindler, José Lezama, Dan Kondratyuk, Bryan Seybold, Irfan Essa,
- Abstract要約: 本稿では,3次元カメラ動作の符号化に生成した映像を条件付けすることで,仮想3Dカメラ制御を生成ビデオに付加することを提案する。
その結果,(1)単一フレームとカメラ信号から始まる映像生成におけるカメラの制御に成功し,(2)従来のコンピュータビジョン手法を用いて生成された3Dカメラパスの精度を示すことができた。
- 参考スコア(独自算出の注目度): 18.67069364925506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We extend multimodal transformers to include 3D camera motion as a conditioning signal for the task of video generation. Generative video models are becoming increasingly powerful, thus focusing research efforts on methods of controlling the output of such models. We propose to add virtual 3D camera controls to generative video methods by conditioning generated video on an encoding of three-dimensional camera movement over the course of the generated video. Results demonstrate that we are (1) able to successfully control the camera during video generation, starting from a single frame and a camera signal, and (2) we demonstrate the accuracy of the generated 3D camera paths using traditional computer vision methods.
- Abstract(参考訳): 我々は,映像生成タスクの条件信号として3Dカメラ動作を含むマルチモーダルトランスフォーマーを拡張した。
生成ビデオモデルはますます強力になり、このようなモデルの出力を制御する方法の研究に焦点が当てられている。
生成した映像を3次元カメラの動きの符号化に適応させることにより、生成ビデオに仮想3Dカメラ制御を加えることを提案する。
その結果,(1)単一フレームとカメラ信号から始まる映像生成におけるカメラの制御に成功し,(2)従来のコンピュータビジョン手法を用いて生成された3Dカメラパスの精度を示すことができた。
関連論文リスト
- Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Training-free Camera Control for Video Generation [19.526135830699882]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
論文 参考訳(メタデータ) (2024-06-14T15:33:00Z) - CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。
生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。
実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-04T17:27:19Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - PV3D: A 3D Generative Model for Portrait Video Generation [94.96025739097922]
我々は,多視点一貫した肖像画を合成できる最初の生成フレームワークであるPV3Dを提案する。
PV3Dは、静的ポートレートのアニメーションやビュー一貫性のあるビデオモーション編集など、多くのダウンストリームアプリケーションをサポートすることができる。
論文 参考訳(メタデータ) (2022-12-13T05:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。