Fugu-MT 論文翻訳(概要): CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation

論文の概要: CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation

arxiv url: http://arxiv.org/abs/2406.02509v1
Date: Tue, 4 Jun 2024 17:27:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 15:00:23.996852
Title: CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation
Title（参考訳）: CamCo:カメラで撮影可能な3Dコンテンツ
Authors: Dejia Xu, Weili Nie, Chao Liu, Sifei Liu, Jan Kautz, Zhangyang Wang, Arash Vahdat,
Abstract要約: 我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
参考スコア（独自算出の注目度）: 117.16677556874278
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently video diffusion models have emerged as expressive generative tools for high-quality video content creation readily available to general users. However, these models often do not offer precise control over camera poses for video generation, limiting the expression of cinematic language and user control. To address this issue, we introduce CamCo, which allows fine-grained Camera pose Control for image-to-video generation. We equip a pre-trained image-to-video generator with accurately parameterized camera pose input using Pl\"ucker coordinates. To enhance 3D consistency in the videos produced, we integrate an epipolar attention module in each attention block that enforces epipolar constraints to the feature maps. Additionally, we fine-tune CamCo on real-world videos with camera poses estimated through structure-from-motion algorithms to better synthesize object motion. Our experiments show that CamCo significantly improves 3D consistency and camera control capabilities compared to previous models while effectively generating plausible object motion. Project page: https://ir1d.github.io/CamCo/
Abstract（参考訳）: 近年,映像拡散モデルが高品質な映像コンテンツ作成のための表現的生成ツールとして登場している。しかしながら、これらのモデルでは、映像生成のためのカメラポーズを正確に制御することができず、映画言語やユーザコントロールの表現が制限される。この問題に対処するため,CamCoを導入する。 Pl\ "ucker coordinates" を用いて正確なパラメータ化カメラポーズ入力を行う。生成したビデオの3D一貫性を高めるため,各注目ブロックにエピポーラアテンションモジュールを統合し,特徴写像に対するエピポーラ制約を強制する。さらに、カメラのポーズで実世界のビデオにCamCoを微調整し、物体の動きをより良く合成する構造移動アルゴリズムを用いて推定する。実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上し,可塑性物体の動きを効果的に生成することがわかった。プロジェクトページ: https://ir1d.github.io/CamCo/

関連論文リスト

ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文参考訳（メタデータ） (2025-03-14T17:59:31Z)
GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control [88.90505842498823]
本稿では,正確なカメラ制御と時間的3次元一貫性を備えた生成ビデオモデルGEN3Cを提案する。以上の結果から,従来の作業よりも精密なカメラ制御と,スパースビューの新規ビュー合成の最先端結果が得られた。
論文参考訳（メタデータ） (2025-03-05T18:59:50Z)
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文参考訳（メタデータ） (2024-11-27T18:49:13Z)
Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:58:31Z)
CamI2V: Camera-Controlled Image-to-Video Diffusion Model [11.762824216082508]
本稿では,明示的な物理的制約をモデル設計に統合する必要性を強調した。ノイズ条件の新たな視点から,すべてのクロスフレーム関係をモデル化するためのエピポーラアテンションを提案する。領域外画像への強い一般化を維持しつつ、RealEstate10K上でのカメラ制御性を25.5%向上させる。
論文参考訳（メタデータ） (2024-10-21T12:36:27Z)
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。 Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文参考訳（メタデータ） (2024-10-14T17:46:32Z)
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文参考訳（メタデータ） (2024-07-17T17:59:05Z)
Training-free Camera Control for Video Generation [19.526135830699882]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
論文参考訳（メタデータ） (2024-06-14T15:33:00Z)
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。 CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文参考訳（メタデータ） (2024-05-27T17:58:01Z)
CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーが希望するコンテンツを作成することができるため、ビデオ生成において制御性は重要な役割を担っている。既存のモデルは、撮影言語として機能するカメラポーズの正確な制御をほとんど見落としていた。我々は、テキスト・トゥ・ビデオ(T2V)モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文参考訳（メタデータ） (2024-04-02T16:52:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。