論文の概要: OmniCam: Unified Multimodal Video Generation via Camera Control
- arxiv url: http://arxiv.org/abs/2504.02312v1
- Date: Thu, 03 Apr 2025 06:38:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:58:01.574263
- Title: OmniCam: Unified Multimodal Video Generation via Camera Control
- Title(参考訳): OmniCam:カメラ制御による統合マルチモーダルビデオ生成
- Authors: Xiaoda Yang, Jiayang Xu, Kaixuan Luan, Xinyu Zhan, Hongshun Qiu, Shijun Shi, Hao Li, Shuai Yang, Li Zhang, Checheng Yu, Cewu Lu, Lixin Yang,
- Abstract要約: カメラの位置やポーズを変えることで多様な視覚効果を実現するカメラ制御は、広く注目を集めている。
既存の手法は複雑な相互作用や限定的な制御能力といった課題に直面している。
我々は、誘導時間的に一貫したビデオを生成する統合カメラフレームワークであるOmniCamを紹介する。
- 参考スコア(独自算出の注目度): 42.94206239207397
- License:
- Abstract: Camera control, which achieves diverse visual effects by changing camera position and pose, has attracted widespread attention. However, existing methods face challenges such as complex interaction and limited control capabilities. To address these issues, we present OmniCam, a unified multimodal camera control framework. Leveraging large language models and video diffusion models, OmniCam generates spatio-temporally consistent videos. It supports various combinations of input modalities: the user can provide text or video with expected trajectory as camera path guidance, and image or video as content reference, enabling precise control over camera motion. To facilitate the training of OmniCam, we introduce the OmniTr dataset, which contains a large collection of high-quality long-sequence trajectories, videos, and corresponding descriptions. Experimental results demonstrate that our model achieves state-of-the-art performance in high-quality camera-controlled video generation across various metrics.
- Abstract(参考訳): カメラの位置やポーズを変えることで多様な視覚効果を実現するカメラ制御は、広く注目を集めている。
しかし、既存の手法は複雑な相互作用や限定的な制御能力といった課題に直面している。
これらの問題に対処するため、我々はマルチモーダルカメラ制御フレームワークであるOmniCamを紹介した。
大規模な言語モデルとビデオ拡散モデルを活用することで、OmniCamは時空間的に一貫したビデオを生成する。
ユーザーは、カメラパスのガイダンスとして、期待される軌道でテキストやビデオを提供することができ、画像やビデオはコンテンツ参照として提供でき、カメラの動きを正確に制御できる。
OmniCamのトレーニングを容易にするため,OmniTrデータセットを導入した。
実験結果から, 高品質なカメラ制御ビデオ生成において, 様々な計測値を用いて, 最先端の性能を実現することが確認された。
関連論文リスト
- Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。
提案したSynFMCデータセットは、さまざまなオブジェクトと環境を含み、特定のルールに従ってさまざまな動きパターンをカバーしている。
さらに,物体とカメラの動きの独立的あるいは同時制御を可能にするFMC(Free-Form Motion Control)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:45Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Training-free Camera Control for Video Generation [15.79168688275606]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
ほとんどの事前訓練されたビデオ拡散モデルでプラグイン・アンド・プレイでき、単一の画像またはテキストプロンプトを入力としてカメラ制御可能なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-06-14T15:33:00Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers [18.67069364925506]
本稿では,3次元カメラ動作の符号化に生成した映像を条件付けすることで,仮想3Dカメラ制御を生成ビデオに付加することを提案する。
その結果,(1)単一フレームとカメラ信号から始まる映像生成におけるカメラの制御に成功し,(2)従来のコンピュータビジョン手法を用いて生成された3Dカメラパスの精度を示すことができた。
論文 参考訳(メタデータ) (2024-05-21T20:54:27Z) - MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーがコンテンツをより正確に作成し、編集できるようにするため、制御性はビデオ生成において重要な役割を果たす。
しかし、既存のモデルは、より深い物語のニュアンスを表現するための映画言語として機能するカメラポーズの制御を欠いている。
我々は、ビデオ拡散モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文 参考訳(メタデータ) (2024-04-02T16:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。