論文の概要: QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.19526v1
- Date: Mon, 22 Dec 2025 16:18:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.826155
- Title: QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models
- Title(参考訳): QuantiPhy:視覚言語モデルの物理推論能力を評価する定量的ベンチマーク
- Authors: Li Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli,
- Abstract要約: QuantiPhyは、VLMの物理的推論能力を定量的に測定するために設計された最初のベンチマークである。
現状のVLMに関する実験では, 定性的妥当性と実際の数値的正しさとの間に一貫したギャップがあることが判明した。
- 参考スコア(独自算出の注目度): 14.860588888047708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the physical world is essential for generalist AI agents. However, it remains unclear whether state-of-the-art vision perception models (e.g., large VLMs) can reason physical properties quantitatively. Existing evaluations are predominantly VQA-based and qualitative, offering limited insight into whether these models can infer the kinematic quantities of moving objects from video observations. To address this, we present QuantiPhy, the first benchmark designed to quantitatively measure a VLM's physical reasoning ability. Comprising more than 3.3K video-text instances with numerical ground truth, QuantiPhy evaluates a VLM's performance on estimating an object's size, velocity, and acceleration at a given timestamp, using one of these properties as an input prior. The benchmark standardizes prompts and scoring to assess numerical accuracy, enabling fair comparisons across models. Our experiments on state-of-the-art VLMs reveal a consistent gap between their qualitative plausibility and actual numerical correctness. We further provide an in-depth analysis of key factors like background noise, counterfactual priors, and strategic prompting and find that state-of-the-art VLMs lean heavily on pre-trained world knowledge rather than faithfully using the provided visual and textual inputs as references when reasoning kinematic properties quantitatively. QuantiPhy offers the first rigorous, scalable testbed to move VLMs beyond mere verbal plausibility toward a numerically grounded physical understanding.
- Abstract(参考訳): 一般のAIエージェントにとって、物理世界を理解することは不可欠である。
しかし、最先端の視覚知覚モデル(例えば大きなVLM)が物理的特性を定量的に推論できるかどうかは不明である。
既存の評価は主にVQAに基づく定性的であり、これらのモデルが動画観察から運動物体の運動量を推測できるかどうかについての限られた洞察を提供する。
これを解決するために、VLMの物理的推論能力を定量的に測定するために設計された最初のベンチマークであるQuantiPhyを提案する。
数値基底真理を持つ3.3K以上のビデオテキストインスタンスを構成するQuantiPhyは、オブジェクトのサイズ、速度、加速度を所定のタイムスタンプで推定するVLMのパフォーマンスを評価し、これらの特性の1つを入力先として利用する。
このベンチマークはプロンプトとスコアを標準化し、数値精度を評価し、モデル間で公正な比較を可能にする。
現状のVLMに関する実験では, 定性的妥当性と実際の数値的正しさとの間に一貫したギャップがあることが判明した。
さらに,背景雑音,反現実的先行,戦略的促進といった重要な要因を詳細に分析し,与えられた視覚的およびテキスト的入力を物理特性を定量的に推論する際の参照として忠実に利用するのではなく,最先端のVLMが事前学習された世界の知識に強く依存していることを見出した。
QuantiPhyは、非常に厳格でスケーラブルなテストベッドを提供する。
関連論文リスト
- TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。
既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。
我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。
言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文 参考訳(メタデータ) (2025-10-08T21:03:46Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。
それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。
本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2025-03-14T16:26:11Z) - Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [11.282655911647483]
視覚言語モデル(VLM)における物理推論の課題
物理コンテキストビルダー(PCB)は,物理シーンの詳細な記述を生成するために,より小型のVLMを微調整したモジュラーフレームワークである。
PCBは、視覚知覚と推論の分離を可能にし、身体的理解に対する相対的な貢献を分析することができる。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - Value-Spectrum: Quantifying Preferences of Vision-Language Models via Value Decomposition in Social Media Contexts [33.12056808870413]
本稿では、視覚言語モデル(VLM)の評価を目的とした、新しい視覚質問回答(VQA)ベンチマークであるValue-Spectrumを紹介する。
我々は、ビデオブラウジングをシミュレートするVLMエージェントパイプラインを設計し、TikTok、YouTube Shorts、Instagram Reelsの5万本以上のショートビデオからなるベクトルデータベースを構築した。
これらのビデオは数ヶ月に渡り、家族、健康、趣味、社会、テクノロジーなどさまざまなトピックをカバーしている。
論文 参考訳(メタデータ) (2024-11-18T11:31:10Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Leveraging VLM-Based Pipelines to Annotate 3D Objects [68.51034848207355]
本稿では,VLMの応答に影響を与える視点などの要因を疎外する代替アルゴリズムを提案する。
テキストのみの応答をマージする代わりに、VLMの合同画像テキストの可能性を利用する。
VLMベースのパイプラインを使って764Kデータセットから764Kオブジェクトの信頼性の高いアノテーションを生成する方法を示す。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。