論文の概要: VIGOR: VIdeo Geometry-Oriented Reward for Temporal Generative Alignment
- arxiv url: http://arxiv.org/abs/2603.16271v1
- Date: Tue, 17 Mar 2026 09:04:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.186922
- Title: VIGOR: VIdeo Geometry-Oriented Reward for Temporal Generative Alignment
- Title(参考訳): VIGOR: Video Geometry-Oriented Reward for Temporal Generative Alignment
- Authors: Tengjiao Yin, Jinglei Shi, Heng Guo, Xi Wang,
- Abstract要約: ビデオ拡散モデルは、トレーニング中に明らかな幾何学的監督が欠如し、矛盾したアーティファクトにつながった。
本稿では,事前学習した幾何学的基礎モデルを利用して,多視点の一貫性を評価する幾何学的報酬モデルを提案する。
提案手法は, 誤差計算をポイントワイズで行うことにより, より物理的に基礎的かつロバストな誤差測定値が得られる。
- 参考スコア(独自算出の注目度): 15.619170225414571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video diffusion models lack explicit geometric supervision during training, leading to inconsistency artifacts such as object deformation, spatial drift, and depth violations in generated videos. To address this limitation, we propose a geometry-based reward model that leverages pretrained geometric foundation models to evaluate multi-view consistency through cross-frame reprojection error. Unlike previous geometric metrics that measure inconsistency in pixel space, where pixel intensity may introduce additional noise, our approach conducts error computation in a pointwise fashion, yielding a more physically grounded and robust error metric. Furthermore, we introduce a geometry-aware sampling strategy that filters out low-texture and non-semantic regions, focusing evaluation on geometrically meaningful areas with reliable correspondences to improve robustness. We apply this reward model to align video diffusion models through two complementary pathways: post-training of a bidirectional model via SFT or Reinforcement Learning and inference-time optimization of a Causal Video Model (e.g., Streaming video generator) via test-time scaling with our reward as a path verifier. Experimental results validate the effectiveness of our design, demonstrating that our geometry-based reward provides superior robustness compared to other variants. By enabling efficient inference-time scaling, our method offers a practical solution for enhancing open-source video models without requiring extensive computational resources for retraining.
- Abstract(参考訳): ビデオ拡散モデルは、トレーニング中に明らかな幾何学的監督を欠くため、オブジェクトの変形、空間的ドリフト、および生成されたビデオの深さ違反などの矛盾したアーティファクトに繋がる。
この制限に対処するために,事前学習された幾何学的基礎モデルを利用して,クロスフレーム再投影誤差による多視点一貫性を評価する幾何学的報酬モデルを提案する。
画素の強度が追加ノイズを生じさせるような画素空間の不整合を測定する従来の幾何学的指標とは異なり、本手法では誤差計算をポイントワイズ方式で行い、より物理的に基底的で堅牢な誤差測定を行う。
さらに、低テクスチャ領域と非セマンティック領域をフィルタリングする幾何学的サンプリング戦略を導入し、信頼性の高い対応による幾何学的意味のある領域の評価に着目し、ロバスト性を向上させる。
本稿では,2つの相補経路による映像拡散モデルの整合化を,SFTや強化学習による双方向モデルの学習後と,経路検証器としての報奨によるテスト時間スケーリングによる因果ビデオモデル(例えば,ストリーミングビデオ生成装置)の推論時間最適化の2つに適用する。
実験により, 設計の有効性を検証し, 幾何に基づく報酬が他の変種と比較して優れたロバスト性をもたらすことを示した。
提案手法は,効率的な推論時間スケーリングを実現することにより,大規模な計算資源を必要とせず,オープンソースのビデオモデルを改善するための実用的なソリューションを提供する。
関連論文リスト
- Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - Epipolar Geometry Improves Video Generation Models [73.44978239787501]
3D一貫性のあるビデオ生成は、生成および再構成タスクにおける多くの下流アプリケーションに大きな影響を与える可能性がある。
エピポーラ幾何学的制約が現代のビデオ拡散モデルをどのように改善するかを考察する。
データ駆動型ディープラーニングを古典的幾何学的コンピュータビジョンでブリッジすることで、空間的に一貫したビデオを生成する実用的な方法を提案する。
論文 参考訳(メタデータ) (2025-10-24T16:21:37Z) - RLGF: Reinforcement Learning with Geometric Feedback for Autonomous Driving Video Generation [75.61028930882144]
この重要な問題を特定し定量化し,合成データと実データを用いた場合の3次元物体検出における顕著な性能差を示す。
本稿では,RLGFを用いた強化学習(Reinforcement Learning with Geometric Feedback, RLGF)を紹介する。
RLGFは幾何誤差(例えばVPエラーを21%、深さエラーを57%)を大幅に削減し、3Dオブジェクト検出のmAPを12.7%改善し、実際のデータ性能のギャップを狭める。
論文 参考訳(メタデータ) (2025-09-20T02:23:36Z) - Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling [29.723534231743038]
本稿では,映像拡散モデルと物理世界の3次元的性質のギャップを埋めるために,幾何学的強制法を提案する。
我々の重要な洞察は、事前訓練された幾何学基礎モデルの特徴と整列することで、モデル中間表現を幾何学的構造へ導くことである。
我々は、カメラビューコンディショニングとアクションコンディショニングの両方のビデオ生成タスクにおいて、Geometry Forcingを評価する。
論文 参考訳(メタデータ) (2025-07-10T17:55:08Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。
これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。
本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。
次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文 参考訳(メタデータ) (2020-10-30T17:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。