Fugu-MT 論文翻訳(概要): IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments

論文の概要: IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments

arxiv url: http://arxiv.org/abs/2506.09849v1
Date: Wed, 11 Jun 2025 15:21:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:03.092593
Title: IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments
Title（参考訳）: IntPhys 2:複雑な合成環境における直観的物理理解のベンチマーク
Authors: Florian Bordes, Quentin Garrido, Justine T Kao, Adina Williams, Michael Rabbat, Emmanuel Dupoux,
Abstract要約: IntPhys 2は、ディープラーニングモデルの直感的な物理理解を評価するために設計されたビデオベンチマークである。 IntPhys 2は、永続性、不変性、時空間連続性、固さという、マクロ的なオブジェクトに関連する4つのコア原則に焦点を当てている。
参考スコア（独自算出の注目度）: 26.02187269408895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present IntPhys 2, a video benchmark designed to evaluate the intuitive physics understanding of deep learning models. Building on the original IntPhys benchmark, IntPhys 2 focuses on four core principles related to macroscopic objects: Permanence, Immutability, Spatio-Temporal Continuity, and Solidity. These conditions are inspired by research into intuitive physical understanding emerging during early childhood. IntPhys 2 offers a comprehensive suite of tests, based on the violation of expectation framework, that challenge models to differentiate between possible and impossible events within controlled and diverse virtual environments. Alongside the benchmark, we provide performance evaluations of several state-of-the-art models. Our findings indicate that while these models demonstrate basic visual understanding, they face significant challenges in grasping intuitive physics across the four principles in complex scenes, with most models performing at chance levels (50%), in stark contrast to human performance, which achieves near-perfect accuracy. This underscores the gap between current models and human-like intuitive physics understanding, highlighting the need for advancements in model architectures and training methodologies.
Abstract（参考訳）: IntPhys 2は、ディープラーニングモデルの直感的な物理理解を評価するために設計されたビデオベンチマークである。オリジナルのIntPhysベンチマークに基づいて、IntPhys 2は、マクロオブジェクトに関連する4つのコア原則に焦点を当てている。これらの条件は、幼児期の直感的な身体的理解の研究から着想を得ている。 IntPhys 2は、予測フレームワークに違反した包括的なテストスイートを提供する。これは、制御された多様な仮想環境内で可能なイベントと不可能なイベントを区別するモデルに挑戦するものだ。ベンチマークとともに、いくつかの最先端モデルの性能評価を提供する。これらのモデルは、基本的な視覚的理解を示す一方で、複雑な場面における4つの原則をまたいだ直感的な物理を把握する上で大きな課題に直面しており、ほとんどのモデルは、人間のパフォーマンスとは対照的に、確率レベル(50%)で実行し、ほぼ完璧に精度を達成している。これは、現在のモデルと人間のような直感的な物理理解のギャップを浮き彫りにして、モデルアーキテクチャとトレーニング方法論の進歩の必要性を強調している。

関連論文リスト

"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models [38.14213802594432]
PhyWorldBenchは、物理法則に準拠したビデオ生成モデルを評価するために設計されたベンチマークである。我々は、現実世界の物理学に故意に違反する「反物理学」という新しいカテゴリーを紹介した。 5つのオープンソースモデルと5つのプロプライエタリモデルを含む12の最先端のテキスト・ビデオ生成モデルを評価する。
論文参考訳（メタデータ） (2025-07-17T17:54:09Z)
PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。 PhysUniBenchは、3,304の物理問題から成っている。ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文参考訳（メタデータ） (2025-06-21T09:55:42Z)
SlotPi: Physics-informed Object-centric Reasoning Models [37.32107835829927]
物理インフォームドオブジェクト中心推論モデルであるSlotPiを紹介する。我々の実験は、ベンチマークや流体データセット上での予測や視覚質問応答(VQA)といったタスクにおけるモデルの強みを強調した。我々は、オブジェクトの相互作用、流体力学、流体オブジェクトの相互作用を含む実世界のデータセットを作成し、モデルの性能を検証した。
論文参考訳（メタデータ） (2025-06-12T14:53:36Z)
Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文参考訳（メタデータ） (2024-10-07T17:56:04Z)
ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文参考訳（メタデータ） (2024-02-09T01:09:21Z)
Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文参考訳（メタデータ） (2021-10-28T17:59:13Z)
Physics-Integrated Variational Autoencoders for Robust and Interpretable Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文参考訳（メタデータ） (2021-02-25T20:28:52Z)
Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文参考訳（メタデータ） (2020-04-28T17:06:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。