論文の概要: GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography
- arxiv url: http://arxiv.org/abs/2504.07083v1
- Date: Wed, 09 Apr 2025 17:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:02.058892
- Title: GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography
- Title(参考訳): GenDoP:写真ディレクターとしての自動回帰カメラ軌道生成
- Authors: Mengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin,
- Abstract要約: 本稿では,写真監督の専門知識にインスパイアされた自己回帰モデルを導入し,芸術的かつ表現的なカメラトラジェクトリを生成する。
包括的で多様なデータベースのおかげで、高品質でコンテキスト対応のカメラムーブメント生成のための自動回帰デコーダのみのトランスフォーマーをトレーニングします。
実験により、既存の手法と比較して、GenDoPはより良い制御性、よりきめ細かい軌道調整、より高い運動安定性を提供することが示された。
- 参考スコア(独自算出の注目度): 98.28272367169465
- License:
- Abstract: Camera trajectory design plays a crucial role in video production, serving as a fundamental tool for conveying directorial intent and enhancing visual storytelling. In cinematography, Directors of Photography meticulously craft camera movements to achieve expressive and intentional framing. However, existing methods for camera trajectory generation remain limited: Traditional approaches rely on geometric optimization or handcrafted procedural systems, while recent learning-based methods often inherit structural biases or lack textual alignment, constraining creative synthesis. In this work, we introduce an auto-regressive model inspired by the expertise of Directors of Photography to generate artistic and expressive camera trajectories. We first introduce DataDoP, a large-scale multi-modal dataset containing 29K real-world shots with free-moving camera trajectories, depth maps, and detailed captions in specific movements, interaction with the scene, and directorial intent. Thanks to the comprehensive and diverse database, we further train an auto-regressive, decoder-only Transformer for high-quality, context-aware camera movement generation based on text guidance and RGBD inputs, named GenDoP. Extensive experiments demonstrate that compared to existing methods, GenDoP offers better controllability, finer-grained trajectory adjustments, and higher motion stability. We believe our approach establishes a new standard for learning-based cinematography, paving the way for future advancements in camera control and filmmaking. Our project website: https://kszpxxzmc.github.io/GenDoP/.
- Abstract(参考訳): カメラ軌道設計は映像制作において重要な役割を担い、監督意図を伝達し、視覚的ストーリーテリングを強化するための基本的なツールとして機能する。
撮影監督はカメラの動きを巧みに作り、表現的かつ意図的なフレーミングを実現する。
従来のアプローチは幾何学的最適化や手作りの手続きシステムに依存していたが、近年の学習に基づく手法は、しばしば構造的バイアスを継承したり、テキストのアライメントを欠いたり、創造的な合成を制約したりする。
本研究では,写真監督の専門知識にインスパイアされた自己回帰モデルを導入し,芸術的かつ表現力のあるカメラトラジェクトリを生成する。
最初にDataDoPを紹介した。これは大規模なマルチモーダルデータセットで、自由移動カメラの軌跡、深度マップ、特定の動きの詳細なキャプション、シーンとのインタラクション、監督意図を含む29Kのリアルワールドショットを含む。
包括的で多様なデータベースのおかげで、テキストガイダンスとRGBD入力に基づく高品質でコンテキスト対応のカメラモーション生成のための自動回帰デコーダのみのトランスフォーマを訓練するGenDoP。
既存の手法と比較して、GenDoPはより良い制御性、よりきめ細かい軌道調整、より高い運動安定性を提供する。
われわれのアプローチは、カメラ制御と映画製作の今後の進歩に向けて、学習に基づく撮影の新たな標準を確立するものであると信じている。
プロジェクトWebサイト: https://kszpxxzmc.github.io/GenDoP/。
関連論文リスト
- Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - ChatCam: Empowering Camera Control through Conversational AI [67.31920821192323]
ChatCamは、ユーザーとの会話を通じてカメラの動きをナビゲートするシステムである。
そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。
また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
論文 参考訳(メタデータ) (2024-09-25T20:13:41Z) - CinePreGen: Camera Controllable Video Previsualization via Engine-powered Diffusion [29.320516135326546]
CinePreGenは、エンジン駆動の拡散で強化された視覚前処理システムである。
グローバルなカメラ調整からローカルなカメラ調整まで、ダイナミックなコントロールを提供する新しいカメラとストーリーボードインターフェースを備えている。
論文 参考訳(メタデータ) (2024-08-30T17:16:18Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - Cinematic Behavior Transfer via NeRF-based Differentiable Filming [63.1622492808519]
既存のSLAM手法は動的シーンの制限に直面し、人間のポーズ推定はしばしば2次元投影に焦点を当てる。
まず,逆撮影行動推定手法を提案する。
次に,新しい2Dビデオや3D仮想環境に様々な撮影タイプを転送できる映像転送パイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-29T15:56:58Z) - Automatic Camera Trajectory Control with Enhanced Immersion for Virtual Cinematography [23.070207691087827]
実世界のシネマトグラフィーのルールは、監督がカメラをアクターと包括的に同期させることで没入感を生み出すことができることを示している。
この戦略に触発されて,アクターとカメラの3面の同期を可能にするディープカメラ制御フレームワークを提案する。
提案手法は,高品質な没入型撮影映像を定量的かつ質的に生成する。
論文 参考訳(メタデータ) (2023-03-29T22:02:15Z) - Batteries, camera, action! Learning a semantic control space for
expressive robot cinematography [15.895161373307378]
我々は,意味空間における複雑なカメラ位置決めパラメータの編集を可能にする,データ駆動型フレームワークを開発した。
まず,写真実写シミュレータにおいて,多様な撮影範囲を持つ映像クリップのデータベースを作成する。
クラウドソーシングフレームワークには何百人もの参加者が参加して,各クリップのセマンティック記述子セットのスコアを取得しています。
論文 参考訳(メタデータ) (2020-11-19T21:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。