論文の概要: VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward
- arxiv url: http://arxiv.org/abs/2603.26599v1
- Date: Fri, 27 Mar 2026 16:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.608032
- Title: VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward
- Title(参考訳): VGGRPO:4D遅延リワードによる世界一貫性ビデオ生成を目指して
- Authors: Zhaochong An, Orest Kupyn, Théo Uscidda, Andrea Colaco, Karan Ahuja, Serge Belongie, Mar Gonzalez-Franco, Marta Tintore Gazulla,
- Abstract要約: VGGRPO(VGGRPO)は、幾何学を意識したポストトレーニング用フレームワークである。
ビデオ拡散潜像を幾何学基礎モデルに縫い付け、潜像空間からのシーン幾何学の直接復号を可能にする。
カメラの安定性、幾何の整合性、全体的な品質を改善しながら、コストのかかるVAEデコードを排除する。
- 参考スコア(独自算出の注目度): 14.297118875382871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale video diffusion models achieve impressive visual quality, yet often fail to preserve geometric consistency. Prior approaches improve consistency either by augmenting the generator with additional modules or applying geometry-aware alignment. However, architectural modifications can compromise the generalization of internet-scale pretrained models, while existing alignment methods are limited to static scenes and rely on RGB-space rewards that require repeated VAE decoding, incurring substantial compute overhead and failing to generalize to highly dynamic real-world scenes. To preserve the pretrained capacity while improving geometric consistency, we propose VGGRPO (Visual Geometry GRPO), a latent geometry-guided framework for geometry-aware video post-training. VGGRPO introduces a Latent Geometry Model (LGM) that stitches video diffusion latents to geometry foundation models, enabling direct decoding of scene geometry from the latent space. By constructing LGM from a geometry model with 4D reconstruction capability, VGGRPO naturally extends to dynamic scenes, overcoming the static-scene limitations of prior methods. Building on this, we perform latent-space Group Relative Policy Optimization with two complementary rewards: a camera motion smoothness reward that penalizes jittery trajectories, and a geometry reprojection consistency reward that enforces cross-view geometric coherence. Experiments on both static and dynamic benchmarks show that VGGRPO improves camera stability, geometry consistency, and overall quality while eliminating costly VAE decoding, making latent-space geometry-guided reinforcement an efficient and flexible approach to world-consistent video generation.
- Abstract(参考訳): 大規模なビデオ拡散モデルは印象的な視覚的品質を達成するが、幾何的一貫性を保たないことが多い。
以前のアプローチでは、ジェネレータを追加モジュールで拡張するか、幾何学的アライメントを適用して一貫性を向上させる。
既存のアライメント手法は静的シーンに限られており、繰り返しVAEデコードを必要とするRGB空間の報酬に依存しており、かなりの計算オーバーヘッドを発生させ、非常にダイナミックな現実世界のシーンに一般化できない。
幾何的整合性を改善しつつ、事前学習能力を維持するために、幾何認識ビデオ後トレーニングのための潜在幾何学誘導フレームワークであるVGGRPO(Visual Geometry GRPO)を提案する。
VGGRPOは、映像拡散潜時を幾何学基礎モデルに縫合する潜時幾何学モデル(LGM)を導入し、潜時空間からのシーン幾何学の直接復号を可能にする。
4次元再構成機能を持つ幾何学モデルからLGMを構築することで、VGGRPOは自然に動的シーンに拡張し、従来の手法の静的シーン制限を克服する。
これに基づいて, カメラモーションスムースネス報酬(ジッタリー軌道をペナル化する)と, クロスビュー幾何コヒーレンスを強制する幾何的再投影整合報酬(geoge reprojection consistency reward)の2つの相補的な報酬を用いて, 潜時空間群相対ポリシー最適化を行う。
静的および動的ベンチマークの両方の実験により、VGGRPOはカメラの安定性、幾何整合性、全体的な品質を改善しながら、コストのかかるVAEデコーディングを排除し、潜在空間幾何学誘導強化は、世界一貫性のビデオ生成に対する効率的で柔軟なアプローチであることが示された。
関連論文リスト
- Repurposing Geometric Foundation Models for Multi-view Diffusion [54.65956050951508]
本稿では,幾何学的基礎モデルの幾何学的一貫した特徴空間を多視点拡散の潜在空間として再利用するフレームワークを提案する。
実験の結果,GADは2次元画像品質と3次元整合性の測定値において,VAEとRAEのどちらよりも優れており,VAEの潜伏空間に比べて4.4倍以上のトレーニングが加速していることがわかった。
論文 参考訳(メタデータ) (2026-03-23T17:57:05Z) - VIGOR: VIdeo Geometry-Oriented Reward for Temporal Generative Alignment [15.619170225414571]
ビデオ拡散モデルは、トレーニング中に明らかな幾何学的監督が欠如し、矛盾したアーティファクトにつながった。
本稿では,事前学習した幾何学的基礎モデルを利用して,多視点の一貫性を評価する幾何学的報酬モデルを提案する。
提案手法は, 誤差計算をポイントワイズで行うことにより, より物理的に基礎的かつロバストな誤差測定値が得られる。
論文 参考訳(メタデータ) (2026-03-17T09:04:10Z) - RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - GeoVideo: Introducing Geometric Regularization into Video Generation Model [46.38507581500745]
フレームごとの深度予測による潜時拡散モデルの拡大により,ビデオ生成に幾何正則化損失を導入する。
本手法は, 外観生成と3次元構造モデリングのギャップを埋めることにより, 構造的コヒーレンス・時間的形状, 整合性, 物理的妥当性が向上する。
論文 参考訳(メタデータ) (2025-12-03T05:11:57Z) - GeoWorld: Unlocking the Potential of Geometry Models to Facilitate High-Fidelity 3D Scene Generation [68.02988074681427]
画像から3Dのシーン生成にビデオモデルを利用する以前の研究は、幾何学的歪みやぼやけた内容に悩まされる傾向にある。
本稿では,幾何学モデルの可能性を解き放つことにより,画像から3次元のシーン生成のパイプラインを再構築する。
我々のGeoWorldは、1つの画像と所定のカメラ軌道から高忠実度3Dシーンを生成することができ、定性的かつ定量的に先行手法より優れている。
論文 参考訳(メタデータ) (2025-11-28T13:55:45Z) - Epipolar Geometry Improves Video Generation Models [73.44978239787501]
3D一貫性のあるビデオ生成は、生成および再構成タスクにおける多くの下流アプリケーションに大きな影響を与える可能性がある。
エピポーラ幾何学的制約が現代のビデオ拡散モデルをどのように改善するかを考察する。
データ駆動型ディープラーニングを古典的幾何学的コンピュータビジョンでブリッジすることで、空間的に一貫したビデオを生成する実用的な方法を提案する。
論文 参考訳(メタデータ) (2025-10-24T16:21:37Z) - UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation [63.90470530428842]
本研究では、適切な設計と微調整により、ビデオ生成モデルの本質的な一貫性を一貫した幾何推定に有効に活用できることを実証する。
その結果,ビデオのグローバルな幾何学的属性の予測性能が向上し,再構成作業に直接適用できることがわかった。
論文 参考訳(メタデータ) (2025-05-30T12:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。