論文の概要: CamI2V: Camera-Controlled Image-to-Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2410.15957v3
- Date: Wed, 04 Dec 2024 12:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:04:55.466084
- Title: CamI2V: Camera-Controlled Image-to-Video Diffusion Model
- Title(参考訳): CamI2V:カメラによる画像とビデオの拡散モデル
- Authors: Guangcong Zheng, Teng Li, Rui Jiang, Yehao Lu, Tao Wu, Xi Li,
- Abstract要約: 統合カメラポーズは、ビデオ拡散モデルにおけるユーザフレンドリーで物理インフォームド条件であり、正確なカメラ制御を可能にする。
重要な課題の1つは、幾何学的整合性とカメラ制御性を高めるために、ノイズの多いクロスフレーム相互作用を効果的にモデル化することである。
我々は,条件の品質と不確実性を低減し,ノイズのあるクロスフレーム特徴をノイズのある状態の形で解釈する能力とを革新的に関連付ける。
- 参考スコア(独自算出の注目度): 11.762824216082508
- License:
- Abstract: Recent advancements have integrated camera pose as a user-friendly and physics-informed condition in video diffusion models, enabling precise camera control. In this paper, we identify one of the key challenges as effectively modeling noisy cross-frame interactions to enhance geometry consistency and camera controllability. We innovatively associate the quality of a condition with its ability to reduce uncertainty and interpret noisy cross-frame features as a form of noisy condition. Recognizing that noisy conditions provide deterministic information while also introducing randomness and potential misguidance due to added noise, we propose applying epipolar attention to only aggregate features along corresponding epipolar lines, thereby accessing an optimal amount of noisy conditions. Additionally, we address scenarios where epipolar lines disappear, commonly caused by rapid camera movements, dynamic objects, or occlusions, ensuring robust performance in diverse environments. Furthermore, we develop a more robust and reproducible evaluation pipeline to address the inaccuracies and instabilities of existing camera control metrics. Our method achieves a 25.64% improvement in camera controllability on the RealEstate10K dataset without compromising dynamics or generation quality and demonstrates strong generalization to out-of-domain images. Training and inference require only 24GB and 12GB of memory, respectively, for 16-frame sequences at 256x256 resolution. We will release all checkpoints, along with training and evaluation code. Dynamic videos are best viewed at https://zgctroy.github.io/CamI2V.
- Abstract(参考訳): 近年,ビデオ拡散モデルにおけるユーザフレンドリで物理インフォームド条件として,カメラのポーズが統合化され,正確なカメラ制御が可能になった。
本稿では,ノイズの多いクロスフレーム相互作用を効果的にモデル化し,幾何整合性とカメラの可制御性を向上する上で重要な課題の1つを取り上げる。
我々は,条件の品質と不確実性を低減し,ノイズのあるクロスフレーム特徴をノイズのある状態の形で解釈する能力とを革新的に関連付ける。
雑音が加わったことによるランダム性や潜在的な誤認を伴い、雑音条件が決定論的情報を提供することを認識し、対応するエピポーラ線に沿った集合的特徴のみにエピポーラ的注意を適用させることにより、最適なノイズ条件の量にアクセスすることを提案する。
さらに,急激なカメラの動き,ダイナミックな物体,あるいは閉塞が原因でエピポーラ線が消失するシナリオに対処し,多様な環境下での堅牢な性能を確保する。
さらに,既存のカメラ制御指標の不正確さや不安定性に対処するために,より堅牢で再現可能な評価パイプラインを開発する。
提案手法は,RealEstate10Kデータセットのダイナミックスや生成品質を損なうことなく,25.64%のカメラ制御性の向上を実現し,ドメイン外画像への強力な一般化を示す。
トレーニングと推論は、256x256解像度の16フレームシーケンスに対してそれぞれ24GBと12GBのメモリしか必要としない。
トレーニングと評価コードとともに、すべてのチェックポイントをリリースします。
ダイナミックビデオはhttps://zgctroy.github.io/CamI2Vでよく見られる。
関連論文リスト
- I2VControl-Camera: Precise Video Camera Control with Adjustable Motion Strength [11.778832811404259]
I2Vコントロルカメラ(I2VControl-Camera)は、被写体運動の強度を提供しながら、制御性を大幅に向上させる新しいカメラ制御方法である。
被写体運動の強度を正確に制御・調整するために,映像軌道展開の高次成分を明示的にモデル化する。
論文 参考訳(メタデータ) (2024-11-10T16:59:39Z) - Boosting Camera Motion Control for Video Diffusion Transformers [21.151900688555624]
本研究では, トランスフォーマーベース拡散モデル (DiT) がカメラモーションの精度を著しく低下させることを示した。
DiTの持続的な動き劣化に対処するため、カメラモーションガイダンス(CMG)を導入し、カメラ制御を400%以上向上させる。
提案手法はU-NetモデルとDiTモデルの両方に適用され,ビデオ生成タスクに改良されたカメラ制御を提供する。
論文 参考訳(メタデータ) (2024-10-14T17:58:07Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。
生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。
実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-04T17:27:19Z) - CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーが希望するコンテンツを作成することができるため、ビデオ生成において制御性は重要な役割を担っている。
既存のモデルは、撮影言語として機能するカメラポーズの正確な制御をほとんど見落としていた。
我々は、テキスト・トゥ・ビデオ(T2V)モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文 参考訳(メタデータ) (2024-04-02T16:52:41Z) - VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。
我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。
我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文 参考訳(メタデータ) (2024-03-25T17:47:03Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - Monitoring and Adapting the Physical State of a Camera for Autonomous
Vehicles [10.490646039938252]
本稿では,データおよび物理モデルに基づくカメラの汎用的・タスク指向型自己維持フレームワークを提案する。
このフレームワークを現実世界の地上車両に実装し、カメラが粗悪な状況に対応するためにパラメータを調整できることを実証する。
われわれのフレームワークは、カメラの健康状態を監視し維持するための実用的なソリューションを提供するだけでなく、より高度な問題に対処するための拡張の基盤としても機能する。
論文 参考訳(メタデータ) (2021-12-10T11:14:44Z) - FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。
エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。
Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文 参考訳(メタデータ) (2021-05-05T09:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。