論文の概要: GeoFlow: Enforcing Implicit Geometric Consistency in Video Generation
- arxiv url: http://arxiv.org/abs/2605.18365v1
- Date: Mon, 18 May 2026 13:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.622974
- Title: GeoFlow: Enforcing Implicit Geometric Consistency in Video Generation
- Title(参考訳): GeoFlow:ビデオ生成における不必要な幾何学的一貫性の強化
- Authors: Jan Ackermann, Shengqu Cai, Boyang Deng, Zhengfei Kuang, Songyou Peng, Gordon Wetzstein,
- Abstract要約: 生成した映像中の動きがコヒーレントなシーンと互換性があるかどうかを測定する。
我々はこれを光学的流れ、奥行き予測、および剛性領域と動的領域の分離に対応する特徴ベースの対応を用いて運用する。
実験は、知覚品質を保ちながら、強いベースライン上での時間的幾何学的アーティファクトの大幅な減少を示す。
- 参考スコア(独自算出の注目度): 46.507099021313074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating geometrically consistent videos remains an open challenge: text-to-video diffusion models trained on web-scale data treat geometry only implicitly, leading to object deformation, texture drift, and non-rigid backgrounds under camera motion. Existing solutions either improve consistency as a byproduct, apply only to static scenes or realign the latent space of the model completely. We introduce a geometry-consistency reward that directly measures whether motion in a generated video is compatible with a coherent scene. Our key insight is that in physically consistent videos, background motion should be explainable by rigid camera-induced flow, while independently moving objects should preserve appearance identity along motion trajectories. We operationalize this using optical flow, depth--pose predictions, and feature-based correspondence to separate rigid and dynamic regions and evaluate their respective consistency. Integrating this reward with reinforcement fine-tuning transforms geometric consistency from an emergent property into an explicit optimization objective for video generators. The approach is model agnostic and applies to diverse dynamic scenes containing both camera and object motion. Experiments show substantial reductions in temporal geometric artifacts over strong baselines while preserving perceptual quality. Code and model weights are published.
- Abstract(参考訳): ウェブスケールのデータ処理で訓練されたテキストからビデオへの拡散モデルは、暗黙的にしか見えず、オブジェクトの変形、テクスチャドリフト、およびカメラモーション下での非厳密な背景に繋がる。
既存のソリューションは、副産物としての一貫性を改善し、静的シーンのみに適用するか、モデルの潜在空間を完全に認識する。
生成した映像中の動きがコヒーレントなシーンと互換性があるかどうかを直接測定する幾何整合性報酬を導入する。
我々の重要な洞察は、物理的に一貫したビデオでは、背景の動きは剛性のあるカメラによって引き起こされる流れによって説明できなければならない。
我々は,これらを光学的流れ,奥行き予測,特徴ベース対応を用いて,剛性領域と動的領域を分離し,それぞれの整合性を評価する。
この報酬を強化微調整と統合することで、ビデオジェネレータに対する明示的な最適化目標に、創発的特性から幾何的整合性をもたらす。
アプローチはモデル非依存であり、カメラと物体の動きの両方を含む多様な動的シーンに適用される。
実験は、知覚品質を保ちながら、強いベースライン上での時間的幾何学的アーティファクトの大幅な減少を示す。
コードとモデルの重みが公開されている。
関連論文リスト
- R-DMesh: Video-Guided 3D Animation via Rectified Dynamic Mesh Flow [50.93811008612562]
動画誘導3Dアニメーションは、動的資産の直感的かつ正確な制御を提供するコンテンツ制作の可能性を秘めている。
現実のシナリオでは、ユーザーが提供するビデオの最初のポーズは、参照ビデオの開始フレームとほとんど一致しない。
ビデオコンテキストに合わせて高忠実度4Dメッシュを生成するためのフレームワークであるR-DMeshを提案する。
論文 参考訳(メタデータ) (2026-05-13T17:58:13Z) - Kinematics-Driven Gaussian Shape Deformation for Blurry Monocular Dynamic Scenes [32.40228197424996]
Kinematics-GSは運動整合変形をモデル化するキネマティクス対応フレームワークである。
最適化を安定させるために,シーンを動的および静的なコンポーネントに分解する。
また、非剛体運動を示す変形性および弾性物体の挑戦的な実世界のデータセットも導入する。
論文 参考訳(メタデータ) (2026-05-09T03:01:17Z) - Measuring 3D Spatial Geometric Consistency in Dynamic Generated Videos [67.7364297817535]
ビデオにおける3D textbfSpatial textbfGeometric textbfConsistencyを評価するためのメトリクスであるSGCを紹介する。
SGCは幾何的不整合を頑健に定量化し、既存のメトリクスで欠落した臨界故障を効果的に特定する。
論文 参考訳(メタデータ) (2026-03-19T15:44:39Z) - Epipolar Geometry Improves Video Generation Models [73.44978239787501]
3D一貫性のあるビデオ生成は、生成および再構成タスクにおける多くの下流アプリケーションに大きな影響を与える可能性がある。
エピポーラ幾何学的制約が現代のビデオ拡散モデルをどのように改善するかを考察する。
データ駆動型ディープラーニングを古典的幾何学的コンピュータビジョンでブリッジすることで、空間的に一貫したビデオを生成する実用的な方法を提案する。
論文 参考訳(メタデータ) (2025-10-24T16:21:37Z) - UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation [63.90470530428842]
本研究では、適切な設計と微調整により、ビデオ生成モデルの本質的な一貫性を一貫した幾何推定に有効に活用できることを実証する。
その結果,ビデオのグローバルな幾何学的属性の予測性能が向上し,再構成作業に直接適用できることがわかった。
論文 参考訳(メタデータ) (2025-05-30T12:31:59Z) - Sync4D: Video Guided Controllable Dynamics for Physics-Based 4D Generation [47.203483017875726]
そこで我々は, カジュアルにキャプチャした参照ビデオを用いて, 3次元ガウシアンにおける制御可能なダイナミックスを作成する新しい手法を提案する。
提案手法は,参照ビデオから様々なカテゴリで生成された様々な3Dガウスにオブジェクトの動きを転送する。
本手法は, 形状整合性と時間的整合性の両方を維持しながら, 特異かつ高品質な運動伝達を提供する。
論文 参考訳(メタデータ) (2024-05-27T05:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。