論文の概要: Quantitative Video World Model Evaluation for Geometric-Consistency
- arxiv url: http://arxiv.org/abs/2605.15185v1
- Date: Thu, 14 May 2026 17:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:35.013543
- Title: Quantitative Video World Model Evaluation for Geometric-Consistency
- Title(参考訳): 幾何学的一貫性の定量的ビデオワールドモデル評価
- Authors: Jiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou,
- Abstract要約: 生成ビデオモデルは暗黙の世界モデルとしてますます研究されている。
物理的に妥当な3D構造と動きを創出するかどうかを評価することは依然として困難である。
生成ビデオにおける幾何コヒーレンスを監査するフレームワークであるPDI-Benchを紹介する。
- 参考スコア(独自算出の注目度): 18.53748808467407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative video models are increasingly studied as implicit world models, yet evaluating whether they produce physically plausible 3D structure and motion remains challenging. Most existing video evaluation pipelines rely heavily on human judgment or learned graders, which can be subjective and weakly diagnostic for geometric failures. We introduce PDI-Bench (Perspective Distortion Index), a quantitative framework for auditing geometric coherence in generated videos. Given a generated clip, we obtain object-centric observations via segmentation and point tracking (e.g., SAM 2, MegaSaM, and CoTracker3), lift them to 3D world-space coordinates via monocular reconstruction, and compute a set of projective-geometry residuals capturing three failure dimensions: scale-depth alignment, 3D motion consistency, and 3D structural rigidity. To support systematic evaluation, we build PDI-Dataset, covering diverse scenarios designed to stress these geometric constraints. Across state-of-the-art video generators, PDI reveals consistent geometry-specific failure modes that are not captured by common perceptual metrics, and provides a diagnostic signal for progress toward physically grounded video generation and physical world model. Our code and dataset can be found at https://pdi-bench.github.io/.
- Abstract(参考訳): 生成ビデオモデルは暗黙の世界モデルとしてますます研究されているが、それらが物理的に妥当な3D構造と動きを創出するかどうかの評価は依然として難しいままである。
既存のビデオ評価パイプラインの多くは、人間の判断や学習用グレーダーに大きく依存しており、幾何学的失敗に対する主観的かつ弱い診断が可能である。
PDI-Bench(Perspective Distortion Index)は、生成されたビデオの幾何学的コヒーレンスを監査するための定量的フレームワークである。
生成したクリップは、セグメンテーションと点追跡(SAM 2, MegaSaM, CoTracker3)によりオブジェクト中心の観測を行い、それらをモノクロ再構成により3次元の世界空間座標に持ち上げ、3次元の破壊次元(スケール深度アライメント、3次元の運動一貫性、3次元の構造剛性)を捉える。
体系的な評価を支援するため、これらの幾何学的制約を強調するために設計された様々なシナリオを網羅したPDIデータセットを構築した。
最先端のビデオジェネレータ全体にわたって、PDIは、一般的な知覚的メトリクスによってキャプチャされない、一貫した幾何学固有の障害モードを明らかにし、物理的に接地されたビデオ生成と物理世界モデルに向けた進展の診断信号を提供する。
私たちのコードとデータセットはhttps://pdi-bench.github.io/で確認できます。
関連論文リスト
- Measuring 3D Spatial Geometric Consistency in Dynamic Generated Videos [67.7364297817535]
ビデオにおける3D textbfSpatial textbfGeometric textbfConsistencyを評価するためのメトリクスであるSGCを紹介する。
SGCは幾何的不整合を頑健に定量化し、既存のメトリクスで欠落した臨界故障を効果的に特定する。
論文 参考訳(メタデータ) (2026-03-19T15:44:39Z) - Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - Grab-3D: Detecting AI-Generated Videos from 3D Geometric Temporal Consistency [23.121660279216528]
Grab-3Dは、幾何学的時間的整合性に基づくAI生成ビデオを検出するための幾何学的認識型トランスフォーマーフレームワークである。
幾何学的位置符号化,時間的幾何学的注意,およびEMAに基づく幾何学的頭部を備えた幾何学的認識を時間的モデリングに明示的に注入する幾何学的認識変換器を提案する。
論文 参考訳(メタデータ) (2025-12-15T18:54:30Z) - GeoVideo: Introducing Geometric Regularization into Video Generation Model [46.38507581500745]
フレームごとの深度予測による潜時拡散モデルの拡大により,ビデオ生成に幾何正則化損失を導入する。
本手法は, 外観生成と3次元構造モデリングのギャップを埋めることにより, 構造的コヒーレンス・時間的形状, 整合性, 物理的妥当性が向上する。
論文 参考訳(メタデータ) (2025-12-03T05:11:57Z) - GeoWorld: Unlocking the Potential of Geometry Models to Facilitate High-Fidelity 3D Scene Generation [68.02988074681427]
画像から3Dのシーン生成にビデオモデルを利用する以前の研究は、幾何学的歪みやぼやけた内容に悩まされる傾向にある。
本稿では,幾何学モデルの可能性を解き放つことにより,画像から3次元のシーン生成のパイプラインを再構築する。
我々のGeoWorldは、1つの画像と所定のカメラ軌道から高忠実度3Dシーンを生成することができ、定性的かつ定量的に先行手法より優れている。
論文 参考訳(メタデータ) (2025-11-28T13:55:45Z) - GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation [57.8059956428009]
2次元視覚言語モデルから3次元セマンティックセグメンテーションへ機能を移行しようとする最近の試みは、永続的なトレードオフを露呈している。
3次元教師モデルから抽出した幾何学的事前情報を用いて2次元VLM生成した3次元点特徴に小さな学生親和性ネットワークを適用したGeoPurifyを提案する。
遅延幾何学情報と学習された親和性ネットワークから恩恵を受けることで、GeoPurifyはトレードオフを効果的に軽減し、優れたデータ効率を実現する。
論文 参考訳(メタデータ) (2025-10-02T16:37:56Z) - Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling [29.723534231743038]
本稿では,映像拡散モデルと物理世界の3次元的性質のギャップを埋めるために,幾何学的強制法を提案する。
我々の重要な洞察は、事前訓練された幾何学基礎モデルの特徴と整列することで、モデル中間表現を幾何学的構造へ導くことである。
我々は、カメラビューコンディショニングとアクションコンディショニングの両方のビデオ生成タスクにおいて、Geometry Forcingを評価する。
論文 参考訳(メタデータ) (2025-07-10T17:55:08Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Sora Generates Videos with Stunning Geometrical Consistency [75.46675626542837]
そこで本研究では,実世界の物理原理に則って生成した映像の質を評価する新しいベンチマークを提案する。
生成した映像を3次元モデルに変換する手法を用いて,3次元再構成の精度が映像品質に大きく影響しているという前提を生かした。
論文 参考訳(メタデータ) (2024-02-27T10:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。