論文の概要: Epipolar Geometry Improves Video Generation Models
- arxiv url: http://arxiv.org/abs/2510.21615v1
- Date: Fri, 24 Oct 2025 16:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.543457
- Title: Epipolar Geometry Improves Video Generation Models
- Title(参考訳): エピポーラ幾何学はビデオ生成モデルを改善する
- Authors: Orest Kupyn, Fabian Manhardt, Federico Tombari, Christian Rupprecht,
- Abstract要約: 3D一貫性のあるビデオ生成は、生成および再構成タスクにおける多くの下流アプリケーションに大きな影響を与える可能性がある。
エピポーラ幾何学的制約が現代のビデオ拡散モデルをどのように改善するかを考察する。
データ駆動型ディープラーニングを古典的幾何学的コンピュータビジョンでブリッジすることで、空間的に一貫したビデオを生成する実用的な方法を提案する。
- 参考スコア(独自算出の注目度): 73.44978239787501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation models have progressed tremendously through large latent diffusion transformers trained with rectified flow techniques. Yet these models still struggle with geometric inconsistencies, unstable motion, and visual artifacts that break the illusion of realistic 3D scenes. 3D-consistent video generation could significantly impact numerous downstream applications in generation and reconstruction tasks. We explore how epipolar geometry constraints improve modern video diffusion models. Despite massive training data, these models fail to capture fundamental geometric principles underlying visual content. We align diffusion models using pairwise epipolar geometry constraints via preference-based optimization, directly addressing unstable camera trajectories and geometric artifacts through mathematically principled geometric enforcement. Our approach efficiently enforces geometric principles without requiring end-to-end differentiability. Evaluation demonstrates that classical geometric constraints provide more stable optimization signals than modern learned metrics, which produce noisy targets that compromise alignment quality. Training on static scenes with dynamic cameras ensures high-quality measurements while the model generalizes effectively to diverse dynamic content. By bridging data-driven deep learning with classical geometric computer vision, we present a practical method for generating spatially consistent videos without compromising visual quality.
- Abstract(参考訳): ビデオ生成モデルは、整流流技術で訓練された大きな潜伏拡散トランスフォーマーによって著しく進歩している。
しかしこれらのモデルは、幾何学的不整合、不安定な動き、そしてリアルな3Dシーンの幻想を破る視覚的アーティファクトといまだに苦労している。
3D一貫性のあるビデオ生成は、生成および再構成タスクにおける多くの下流アプリケーションに大きな影響を与える可能性がある。
エピポーラ幾何学的制約が現代のビデオ拡散モデルをどのように改善するかを考察する。
膨大なトレーニングデータにもかかわらず、これらのモデルは視覚コンテンツの基礎となる基本的な幾何学的原理を捉えることができない。
我々は、偏極幾何制約を用いた拡散モデルを好みに基づく最適化により整列し、数学的に原理化された幾何法則によって不安定なカメラ軌跡や幾何学的アーティファクトに直接対処する。
エンド・ツー・エンドの微分可能性を必要としない幾何学的原理を効果的に適用する。
評価は、古典的な幾何学的制約が現代の学習指標よりも安定した最適化信号を提供し、アライメント品質を損なうノイズの多い目標を生成することを示した。
ダイナミックカメラを用いた静的シーンのトレーニングにより、モデルが様々なダイナミックコンテンツに効果的に一般化する一方で、高品質な測定が保証される。
データ駆動型ディープラーニングを古典的幾何学的コンピュータビジョンでブリッジすることで、視覚的品質を損なうことなく、空間的に一貫したビデオを生成する実用的な方法を提案する。
関連論文リスト
- Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling [29.723534231743038]
本稿では,映像拡散モデルと物理世界の3次元的性質のギャップを埋めるために,幾何学的強制法を提案する。
我々の重要な洞察は、事前訓練された幾何学基礎モデルの特徴と整列することで、モデル中間表現を幾何学的構造へ導くことである。
我々は、カメラビューコンディショニングとアクションコンディショニングの両方のビデオ生成タスクにおいて、Geometry Forcingを評価する。
論文 参考訳(メタデータ) (2025-07-10T17:55:08Z) - GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation [63.90470530428842]
本研究では、適切な設計と微調整により、ビデオ生成モデルの本質的な一貫性を一貫した幾何推定に有効に活用できることを実証する。
その結果,ビデオのグローバルな幾何学的属性の予測性能が向上し,再構成作業に直接適用できることがわかった。
論文 参考訳(メタデータ) (2025-05-30T12:31:59Z) - DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。
我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。
我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-08T17:59:47Z) - Attention to Detail: Fine-Scale Feature Preservation-Oriented Geometric Pre-training for AI-Driven Surrogate Modeling [6.34618828355523]
AI駆動サロゲートモデリングは、3D設計、分析、製造のための物理ベースのシミュレーションの代替として、ますます効果的になっている。
本研究は,非パラメトリック3次元モデルから微細な幾何学的特徴を捉えるための自己教師付き幾何学的表現学習手法を提案する。
論文 参考訳(メタデータ) (2025-04-27T17:10:13Z) - Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis [31.90503003079933]
我々は、ニューラルネットワークによる明示的な動的メッシュをエンコードする新しいハイブリッド表現であるDynamic Tetrahedra(DynTet)を紹介する。
以前の研究と比較すると、DynTetは様々なメトリクスに従って忠実さ、唇の同期、リアルタイムのパフォーマンスを著しく改善している。
論文 参考訳(メタデータ) (2024-02-27T09:56:15Z) - Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。
これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。
本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。
次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文 参考訳(メタデータ) (2020-10-30T17:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。