論文の概要: WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models
- arxiv url: http://arxiv.org/abs/2601.21282v1
- Date: Thu, 29 Jan 2026 05:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.593996
- Title: WorldBench: Disambiguating Physics for Diagnostic Evaluation of World Models
- Title(参考訳): WorldBench:世界モデルの診断のための物理学の曖昧さ
- Authors: Rishi Upadhyay, Howard Zhang, Jim Solomon, Ayush Agrawal, Pranay Boreddy, Shruti Satya Narayana, Yunhao Ba, Alex Wong, Celso M de Melo, Achuta Kadambi,
- Abstract要約: We introduced WorldBench, a video-based benchmark designed for concept-specific, disentangled evaluation。
WorldBenchは、ビデオ生成と世界モデルの物理的推論能力を厳格に評価するための、より微妙でスケーラブルなフレームワークを提供する。
- 参考スコア(独自算出の注目度): 17.757245394765807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative foundational models, often termed "world models," have propelled interest in applying them to critical tasks like robotic planning and autonomous system training. For reliable deployment, these models must exhibit high physical fidelity, accurately simulating real-world dynamics. Existing physics-based video benchmarks, however, suffer from entanglement, where a single test simultaneously evaluates multiple physical laws and concepts, fundamentally limiting their diagnostic capability. We introduce WorldBench, a novel video-based benchmark specifically designed for concept-specific, disentangled evaluation, allowing us to rigorously isolate and assess understanding of a single physical concept or law at a time. To make WorldBench comprehensive, we design benchmarks at two different levels: 1) an evaluation of intuitive physical understanding with concepts such as object permanence or scale/perspective, and 2) an evaluation of low-level physical constants and material properties such as friction coefficients or fluid viscosity. When SOTA video-based world models are evaluated on WorldBench, we find specific patterns of failure in particular physics concepts, with all tested models lacking the physical consistency required to generate reliable real-world interactions. Through its concept-specific evaluation, WorldBench offers a more nuanced and scalable framework for rigorously evaluating the physical reasoning capabilities of video generation and world models, paving the way for more robust and generalizable world-model-driven learning.
- Abstract(参考訳): 生成基礎モデルの最近の進歩は、しばしば「世界モデル」と呼ばれ、ロボット計画や自律システムの訓練といった重要なタスクにそれらを適用することへの関心を喚起している。
信頼性の高い配置のためには、これらのモデルは実世界の力学を正確にシミュレートし、高い物理的忠実さを示す必要がある。
しかし、既存の物理ベースのビデオベンチマークでは、単一のテストが複数の物理法則と概念を同時に評価し、診断能力を根本的に制限する、絡み合いに悩まされている。
我々はWorldBenchを紹介した。WorldBenchは、概念固有の非絡み合い評価のために特別に設計された、新しいビデオベースのベンチマークで、一度にひとつの物理概念や法則の理解を厳格に分離し、評価することができる。
WorldBenchを包括的にするために、ベンチマークを2つの異なるレベルで設計する。
1)物体の永続性やスケール/パースペクティブといった概念による直感的な身体的理解の評価
2) 摩擦係数や流体粘度などの低レベル物理定数および材料特性の評価を行った。
SOTAビデオベースの世界モデルがWorldBench上で評価されると、信頼性の高い実世界の相互作用を生成するために必要な物理的一貫性が欠如している、特定の物理概念における障害パターンが見つかる。
概念固有の評価を通じて、WorldBenchは、ビデオ生成と世界モデルの物理的推論能力を厳格に評価し、より堅牢で一般化可能な世界モデル駆動学習の道を開くための、よりニュアンスでスケーラブルなフレームワークを提供する。
関連論文リスト
- PhysicsMind: Sim and Real Mechanics Benchmarking for Physical Reasoning and Prediction in Foundational VLMs and World Models [40.16417939211015]
MLLM(Multimodal Large Language Models)やビデオワールドモデルは、数学的、常識的、視覚的推論において大きく進歩している。
この問題を計測しようとする既存のベンチマークは、合成された視覚的質問応答テンプレート、あるいは物理的な法則によってビデオがどれだけうまく機能するかを測定するための知覚的ビデオ品質に焦点を当てている。
我々は,3つの標準原理(Center of Mass, Lever Equilibrium, Newton's First Law)について,法に一貫性のある推論と生成を評価する統一ベンチマークであるPhysicalMindを紹介する。
論文 参考訳(メタデータ) (2026-01-22T14:33:01Z) - PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models [100.65199317765608]
物理原理は現実的な視覚シミュレーションには基本的だが、トランスフォーマーベースのビデオ生成において重要な監視対象である。
本研究では,物理衝突ルールを高次元空間に直接適用した映像生成モデルのための物理認識強化学習パラダイムを提案する。
このパラダイムを、MDcycle(Mimicry-Discovery Cycle)と呼ばれる統合フレームワークに拡張することで、大幅な微調整を可能にします。
論文 参考訳(メタデータ) (2026-01-16T08:40:10Z) - WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - PAI-Bench: A Comprehensive Benchmark For Physical AI [70.22914615084215]
ビデオ生成モデルは、物理的に一貫性のあるダイナミクスを維持するのに苦労することが多い。
マルチモーダルな大言語モデルは、予測と因果解釈において限られた性能を示す。
これらの観測は、現在のシステムは、物理AIの知覚的および予測的要求を扱う初期段階にあることを示唆している。
論文 参考訳(メタデータ) (2025-12-01T18:47:39Z) - "PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models [38.14213802594432]
PhyWorldBenchは、物理法則に準拠したビデオ生成モデルを評価するために設計されたベンチマークである。
我々は、現実世界の物理学に故意に違反する「反物理学」という新しいカテゴリーを紹介した。
5つのオープンソースモデルと5つのプロプライエタリモデルを含む12の最先端のテキスト・ビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2025-07-17T17:54:09Z) - IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments [26.02187269408895]
IntPhys 2は、ディープラーニングモデルの直感的な物理理解を評価するために設計されたビデオベンチマークである。
IntPhys 2は、永続性、不変性、時空間連続性、固さという、マクロ的なオブジェクトに関連する4つのコア原則に焦点を当てている。
論文 参考訳(メタデータ) (2025-06-11T15:21:16Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。