論文の概要: VERTIGO: Visual Preference Optimization for Cinematic Camera Trajectory Generation
- arxiv url: http://arxiv.org/abs/2604.02467v1
- Date: Thu, 02 Apr 2026 18:58:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.177493
- Title: VERTIGO: Visual Preference Optimization for Cinematic Camera Trajectory Generation
- Title(参考訳): VERTIGO:シネマカメラ軌道生成のための視覚的選好最適化
- Authors: Mengtian Li, Yuwei Lu, Feifei Li, Chenqi Gan, Zhifeng Xie, Xi Wang,
- Abstract要約: カメラ軌道生成器の視覚的嗜好最適化のための最初のフレームワークであるVERTIGOを紹介する。
我々のフレームワークは、リアルタイムグラフィックスエンジン(Unity)を活用して、生成されたカメラモーションから2Dビジュアルプレビューをレンダリングする。
映像的に微調整された視覚言語モデルを用いて,提案したサイクリックセマンティック類似度機構を用いて,これらのプレビューをスコアする。
Unityレンダリングの定量的評価とユーザスタディの両方は、条件順守、フレーミング品質、知覚リアリズムにおいて一貫した利得を示す。
- 参考スコア(独自算出の注目度): 22.682916634525565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cinematic camera control relies on a tight feedback loop between director and cinematographer, where camera motion and framing are continuously reviewed and refined. Recent generative camera systems can produce diverse, text-conditioned trajectories, but they lack this "director in the loop" and have no explicit supervision of whether a shot is visually desirable. This results in in-distribution camera motion but poor framing, off-screen characters, and undesirable visual aesthetics. In this paper, we introduce VERTIGO, the first framework for visual preference optimization of camera trajectory generators. Our framework leverages a real-time graphics engine (Unity) to render 2D visual previews from generated camera motion. A cinematically fine-tuned vision-language model then scores these previews using our proposed cyclic semantic similarity mechanism, which aligns renders with text prompts. This process provides the visual preference signals for Direct Preference Optimization (DPO) post-training. Both quantitative evaluations and user studies on Unity renders and diffusion-based Camera-to-Video pipelines show consistent gains in condition adherence, framing quality, and perceptual realism. Notably, VERTIGO reduces the character off-screen rate from 38% to nearly 0% while preserving the geometric fidelity of camera motion. User study participants further prefer VERTIGO over baselines across composition, consistency, prompt adherence, and aesthetic quality, confirming the perceptual benefits of our visual preference post-training.
- Abstract(参考訳): 撮影カメラの制御は、監督と撮影監督の間の緊密なフィードバックループに依存しており、カメラの動きとフレーミングは継続的にレビューされ、洗練されている。
近年のジェネレーティブカメラシステムは、多種多様なテキスト条件の軌跡を生成できるが、この「ループ内のディレクタ」が欠如しており、ショットが視覚的に望ましいかどうかを明確に監督することができない。
これにより、ディストリビューション・カメラの動作は低下するがフレーミング、オフスクリーンキャラクタ、望ましくない視覚美学が生じる。
本稿では,カメラ軌道生成器の視覚的嗜好最適化のための最初のフレームワークであるVERTIGOを紹介する。
我々のフレームワークは、リアルタイムグラフィックスエンジン(Unity)を活用して、生成されたカメラモーションから2Dビジュアルプレビューをレンダリングする。
映像的に微調整された視覚言語モデルでは、レンダリングをテキストプロンプトと整列する巡回意味類似性機構を用いて、これらのプレビューをスコアする。
このプロセスは、直接選好最適化(DPO)後トレーニングのための視覚的選好信号を提供する。
Unityレンダリングの定量的評価とユーザスタディの両方は、条件順守、フレーミング品質、知覚リアリズムにおいて一貫した利得を示す。
特にVERTIGOは、カメラモーションの幾何学的忠実さを保ちながら、文字オフスクリーンレートを38%から0%近くに下げる。
ユーザスタディの参加者は、構成、一貫性、即効性、審美的品質にまたがるベースラインよりもVERTIGOを優先し、私たちの視覚的嗜好の知覚的メリットを確認します。
関連論文リスト
- Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - Motor Focus: Fast Ego-Motion Prediction for Assistive Visual Navigation [3.837186701755568]
Motor Focusは、視覚的なフィードに基づいて観察者の動き方向を予測する画像ベースのフレームワークである。
我々のフレームワークは、速度(>40FPS)、精度(MAE = 60ピクセル)、堅牢性(SNR = 23dB)においてその優位性を示す。
論文 参考訳(メタデータ) (2024-04-25T20:45:39Z) - Gaussian Splatting on the Move: Blur and Rolling Shutter Compensation for Natural Camera Motion [25.54868552979793]
本稿では,カメラの動きに適応し,手持ち映像データを用いた高品質なシーン再構成を実現する手法を提案する。
合成データと実データの両方を用いて、既存の手法よりもカメラの動きを軽減できる性能を示した。
論文 参考訳(メタデータ) (2024-03-20T06:19:41Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Motion and Context-Aware Audio-Visual Conditioned Video Prediction [58.9467115916639]
視覚条件付き映像予測を動作モデルと外観モデルに分離する。
マルチモーダルモーション推定は、音声と動きの相関に基づいて将来の光の流れを予測する。
本研究では,グローバルな出現状況の減少に対処する文脈認識の改良を提案する。
論文 参考訳(メタデータ) (2022-12-09T05:57:46Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z) - Motion-blurred Video Interpolation and Extrapolation [72.3254384191509]
本稿では,映像から鮮明なフレームをエンドツーエンドに切り離し,補間し,外挿する新しい枠組みを提案する。
予測フレーム間の時間的コヒーレンスを確保し,潜在的な時間的あいまいさに対処するために,単純で効果的なフローベースルールを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。