論文の概要: GimbalDiffusion: Gravity-Aware Camera Control for Video Generation
- arxiv url: http://arxiv.org/abs/2512.09112v1
- Date: Tue, 09 Dec 2025 20:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.319124
- Title: GimbalDiffusion: Gravity-Aware Camera Control for Video Generation
- Title(参考訳): GimbalDiffusion:ビデオ生成のための重力対応カメラ制御
- Authors: Frédéric Fortier-Chouinard, Yannick Hold-Geoffroy, Valentin Deschaintre, Matheus Gadelha, Jean-François Lalonde,
- Abstract要約: 本稿では,重力をグローバルな基準として,物理世界座標に接地したカメラ制御を実現するフレームワークを提案する。
我々はパノラマ360度ビデオを利用して、従来のビデオデータに見られる直線的で前方向きの軌跡をはるかに超えて、様々なカメラ軌跡を構築する。
本研究では、広帯域カメラピッチ変動下での総合評価のために、SpatialVID-HQを再バランスさせることにより、カメラ対応ビデオ生成のためのベンチマークを確立する。
- 参考スコア(独自算出の注目度): 30.697985626973665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in text-to-video generation has achieved remarkable realism, yet fine-grained control over camera motion and orientation remains elusive. Existing approaches typically encode camera trajectories through relative or ambiguous representations, limiting explicit geometric control. We introduce GimbalDiffusion, a framework that enables camera control grounded in physical-world coordinates, using gravity as a global reference. Instead of describing motion relative to previous frames, our method defines camera trajectories in an absolute coordinate system, allowing precise and interpretable control over camera parameters without requiring an initial reference frame. We leverage panoramic 360-degree videos to construct a wide variety of camera trajectories, well beyond the predominantly straight, forward-facing trajectories seen in conventional video data. To further enhance camera guidance, we introduce null-pitch conditioning, an annotation strategy that reduces the model's reliance on text content when conflicting with camera specifications (e.g., generating grass while the camera points towards the sky). Finally, we establish a benchmark for camera-aware video generation by rebalancing SpatialVID-HQ for comprehensive evaluation under wide camera pitch variation. Together, these contributions advance the controllability and robustness of text-to-video models, enabling precise, gravity-aligned camera manipulation within generative frameworks.
- Abstract(参考訳): 近年のテキスト・ビデオ・ジェネレーションの進歩は目覚ましいリアリズムを達成しているが、カメラの動きや方向に対するきめ細かい制御はいまだに解明されていない。
既存のアプローチは通常、相対的あるいは曖昧な表現を通じてカメラ軌跡を符号化し、明示的な幾何学的制御を制限する。
我々は,重力をグローバルな基準として,物理世界の座標に接地したカメラ制御を可能にするフレームワークであるGimbalDiffusionを紹介した。
従来のフレームに対しての動作を記述する代わりに、絶対座標系でカメラ軌跡を定義し、初期参照フレームを必要とせずにカメラパラメータの精密かつ解釈可能な制御を可能にする。
我々はパノラマ360度ビデオを利用して、従来のビデオデータに見られる直線的で前方向きの軌跡をはるかに超えて、様々なカメラ軌跡を構築する。
カメラ仕様と矛盾する場合(例えば、カメラが空に向かっているときに草を発生させる)に、モデルがテキストの内容に依存することを減らすアノテーション戦略であるヌルピッチ条件付けを導入する。
最後に、広帯域カメラピッチ変動下での総合評価のために、SpatialVID-HQを再バランスさせることにより、カメラ対応ビデオ生成のベンチマークを確立する。
これらの貢献により、テキスト・ビデオモデルの制御性とロバスト性が向上し、生成フレームワーク内で正確な重力対応カメラ操作が可能になる。
関連論文リスト
- Unified Camera Positional Encoding for Controlled Video Generation [48.5789182990001]
トランスフォーマーは、3D知覚、ビデオ生成、自律運転のための世界モデル、そしてAIを具体化するための普遍的なバックボーンとして登場した。
本稿では、6-DoFポーズ、内在性、レンズ歪みを含む完全なカメラ情報を統一する幾何学一貫性表現であるRelative Rayを紹介する。
システム的なトレーニングと評価を容易にするため,広い範囲のカメラモーションとレンズタイプをカバーする大規模なビデオデータセットを構築した。
論文 参考訳(メタデータ) (2025-12-08T07:34:01Z) - Generative Photographic Control for Scene-Consistent Video Cinematic Editing [75.45726688666083]
CineCtrlはプロのカメラパラメータを細かく制御する最初の映像編集フレームワークである。
本稿では、カメラの動きを写真入力から切り離すための分離されたクロスアテンション機構を提案する。
本モデルでは,ユーザの指定した写真カメラ効果を正確に制御した高忠実度ビデオを生成する。
論文 参考訳(メタデータ) (2025-11-17T03:17:23Z) - CamPVG: Camera-Controlled Panoramic Video Generation with Epipolar-Aware Diffusion [31.032317079295762]
CamPVGは、正確なカメラポーズによってガイドされるパノラマビデオ生成のための初めての拡散ベースのフレームワークである。
球面投影に基づくパノラマ画像とクロスビュー特徴集計のためのカメラ位置符号化を実現する。
提案手法は,パノラマ映像生成における既存の手法をはるかに超え,カメラトラジェクトリーと整合した高品質なパノラマ映像を生成する。
論文 参考訳(メタデータ) (2025-09-24T10:34:24Z) - I2VControl-Camera: Precise Video Camera Control with Adjustable Motion Strength [11.778832811404259]
I2Vコントロルカメラ(I2VControl-Camera)は、被写体運動の強度を提供しながら、制御性を大幅に向上させる新しいカメラ制御方法である。
被写体運動の強度を正確に制御・調整するために,映像軌道展開の高次成分を明示的にモデル化する。
論文 参考訳(メタデータ) (2024-11-10T16:59:39Z) - CamI2V: Camera-Controlled Image-to-Video Diffusion Model [11.762824216082508]
統合カメラポーズは、ビデオ拡散モデルにおけるユーザフレンドリーで物理インフォームド条件であり、正確なカメラ制御を可能にする。
重要な課題の1つは、幾何学的整合性とカメラ制御性を高めるために、ノイズの多いクロスフレーム相互作用を効果的にモデル化することである。
我々は,条件の品質と不確実性を低減し,ノイズのあるクロスフレーム特徴をノイズのある状態の形で解釈する能力とを革新的に関連付ける。
論文 参考訳(メタデータ) (2024-10-21T12:36:27Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。