Fugu-MT 論文翻訳(概要): CameraCtrl: Enabling Camera Control for Text-to-Video Generation

論文の概要: CameraCtrl: Enabling Camera Control for Text-to-Video Generation

arxiv url: http://arxiv.org/abs/2404.02101v1
Date: Tue, 2 Apr 2024 16:52:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 15:30:03.156199
Title: CameraCtrl: Enabling Camera Control for Text-to-Video Generation
Title（参考訳）: CameraCtrl:テキスト・ビデオ・ジェネレーションのためのカメラ制御
Authors: Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang,
Abstract要約: ユーザーが希望するコンテンツを作成することができるため、ビデオ生成において制御性は重要な役割を担っている。既存のモデルは、撮影言語として機能するカメラポーズの正確な制御をほとんど見落としていた。我々は、テキスト・トゥ・ビデオ(T2V)モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
参考スコア（独自算出の注目度）: 86.36135895375425
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Controllability plays a crucial role in video generation since it allows users to create desired content. However, existing models largely overlooked the precise control of camera pose that serves as a cinematic language to express deeper narrative nuances. To alleviate this issue, we introduce CameraCtrl, enabling accurate camera pose control for text-to-video(T2V) models. After precisely parameterizing the camera trajectory, a plug-and-play camera module is then trained on a T2V model, leaving others untouched. Additionally, a comprehensive study on the effect of various datasets is also conducted, suggesting that videos with diverse camera distribution and similar appearances indeed enhance controllability and generalization. Experimental results demonstrate the effectiveness of CameraCtrl in achieving precise and domain-adaptive camera control, marking a step forward in the pursuit of dynamic and customized video storytelling from textual and camera pose inputs. Our project website is at: https://hehao13.github.io/projects-CameraCtrl/.
Abstract（参考訳）: ユーザーが希望するコンテンツを作成することができるため、ビデオ生成において制御性は重要な役割を担っている。しかし、既存のモデルは、より深い物語のニュアンスを表現するための映画言語として機能するカメラポーズの正確な制御をほとんど見落としていた。この問題を軽減するために、私たちはCameraCtrlを導入し、テキスト・トゥ・ビデオ(T2V)モデルの正確なカメラポーズ制御を可能にした。カメラの軌道を正確にパラメータ化した後、プラグアンドプレイのカメラモジュールがT2Vモデルで訓練され、他のモジュールは触れられなくなる。さらに、様々なデータセットの効果に関する包括的な研究も行われ、多様なカメラ分布と類似の外観を持つビデオは、制御可能性と一般化を実際に促進していることを示唆している。実験結果から、テキストとカメラのポーズ入力から動的でカスタマイズされたビデオストーリーテリングを追求し、精密かつドメイン適応的なカメラ制御を実現する上で、CameraCtrlの有効性が示された。プロジェクトのWebサイトは以下の通り。

関連論文リスト

Generative Photographic Control for Scene-Consistent Video Cinematic Editing [75.45726688666083]
CineCtrlはプロのカメラパラメータを細かく制御する最初の映像編集フレームワークである。本稿では、カメラの動きを写真入力から切り離すための分離されたクロスアテンション機構を提案する。本モデルでは,ユーザの指定した写真カメラ効果を正確に制御した高忠実度ビデオを生成する。
論文参考訳（メタデータ） (2025-11-17T03:17:23Z)
CamCloneMaster: Enabling Reference-based Camera Control for Video Generation [39.68297612349062]
CamCloneMasterは、カメラパラメータやテストタイムの微調整を必要とせずに、リファレンスビデオからカメラの動きを再現できるフレームワークである。本稿では,カメラクローン学習のための大規模合成データセットについて述べる。
論文参考訳（メタデータ） (2025-06-03T17:59:02Z)
CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.63787060844409]
CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。動的シーンの生成を段階的に拡大するアプローチを採っている。
論文参考訳（メタデータ） (2025-03-13T17:42:01Z)
Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training [51.851390459940646]
我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。 Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
論文参考訳（メタデータ） (2024-12-08T18:59:54Z)
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文参考訳（メタデータ） (2024-11-27T18:49:13Z)
I2VControl-Camera: Precise Video Camera Control with Adjustable Motion Strength [11.778832811404259]
I2Vコントロルカメラ(I2VControl-Camera)は、被写体運動の強度を提供しながら、制御性を大幅に向上させる新しいカメラ制御方法である。被写体運動の強度を正確に制御・調整するために,映像軌道展開の高次成分を明示的にモデル化する。
論文参考訳（メタデータ） (2024-11-10T16:59:39Z)
Boosting Camera Motion Control for Video Diffusion Transformers [21.151900688555624]
本研究では, トランスフォーマーベース拡散モデル (DiT) がカメラモーションの精度を著しく低下させることを示した。 DiTの持続的な動き劣化に対処するため、カメラモーションガイダンス(CMG)を導入し、カメラ制御を400%以上向上させる。提案手法はU-NetモデルとDiTモデルの両方に適用され,ビデオ生成タスクに改良されたカメラ制御を提供する。
論文参考訳（メタデータ） (2024-10-14T17:58:07Z)
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文参考訳（メタデータ） (2024-07-17T17:59:05Z)
Training-free Camera Control for Video Generation [19.526135830699882]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
論文参考訳（メタデータ） (2024-06-14T15:33:00Z)
CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-06-04T17:27:19Z)
Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。 CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文参考訳（メタデータ） (2024-05-27T17:58:01Z)
MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文参考訳（メタデータ） (2024-04-24T10:28:54Z)
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文参考訳（メタデータ） (2023-12-06T17:49:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。