Fugu-MT 論文翻訳(概要): NICE FACT: Diagnosing and Calibrating VLMs in Quantitative Reasoning for Kinematic Physics

論文の概要: NICE FACT: Diagnosing and Calibrating VLMs in Quantitative Reasoning for Kinematic Physics

arxiv url: http://arxiv.org/abs/2605.08452v1
Date: Fri, 08 May 2026 20:17:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:49.655751
Title: NICE FACT: Diagnosing and Calibrating VLMs in Quantitative Reasoning for Kinematic Physics
Title（参考訳）: NICE FACT:物理物理の定量的推論におけるVLMの診断と校正
Authors: Jian Lan, Zhicheng Liu, Xinpeng Wang, Yuhao Zhou, Haokun Chen, Jiancheng Lv, Barbara Plank, Thomas Seidl,
Abstract要約: この研究は、視覚言語モデルが物理的世界をどのように知覚するかを根本的に理解し、物理法則を活用することを目的としている。運動物理学の量的推論を明示的に分解する双対診断パラダイムであるNICEとFACTを提案する。 NICEは、我々の新しい地区インフォームドキャリブレーション手法と、信頼性の評価とキャリブレーションのための新しいメトリクスについて研究する。
参考スコア（独自算出の注目度）: 65.02899948986969
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to derive precise spatial and physical insights is a cornerstone of vision-language models (VLMs), yet their poor performances in related spatial intelligence tasks such as physical reasoning remain a fundamental barrier. The community critically lacks a scientific analysis revealing whether VLMs faithfully reach answers or plausibly make guesses. This work aims to provide a fundamental understanding of how VLMs perceive the physical world, and utilize physical laws, while assessing the reliability of model confidence. We propose NICE and FACT, a dual-diagnostic paradigm that explicitly decomposes quantitative reasoning for kinematic physics: FACT diagnoses visual fidelity, physical law comprehension, and temporal grounding. NICE studies our novel neighborhood-informed calibration method and novel metrics to evaluate and calibrate confidence reliability. Evaluated across 6 latest state-of-the-art VLMs, we uncover that models fail to identify visual preconditions or utilize necessary physical laws to reach answers. This work highlights and establishes a standardized diagnostic paradigm to guide the development of faithful, physically-grounded VLMs.
Abstract（参考訳）: 正確な空間的および物理的洞察を導き出す能力は、視覚言語モデル(VLM)の基盤であるが、物理的な推論のような関連する空間的知性タスクにおけるそれらの粗悪な性能は、依然として基本的な障壁である。コミュニティは、VLMが忠実に答えに到達したか、あるいは推測したかを明らかにする科学的分析を欠いている。この研究は、VLMが物理的世界をどのように知覚するかを根本的に理解し、モデル信頼性の信頼性を評価しながら、物理法則を活用することを目的としている。運動物理学の量的推論を明示的に分解する双対診断パラダイムであるNICEとFACTを提案し、FACTは視覚的忠実さ、物理法則の理解、時間的接地を診断する。 NICEは、我々の新しい地区インフォームドキャリブレーション手法と、信頼性の評価とキャリブレーションのための新しいメトリクスについて研究する。最新の6つのVLMで評価した結果、モデルが視覚的前提条件を特定したり、必要な物理法則を使って答えを得ることができないことが判明した。この研究は、忠実で物理的に接地されたVLMの開発を導くための標準化された診断パラダイムを強調し、確立する。

関連論文リスト

QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models [14.860588888047708]
QuantiPhyは、VLMの物理的推論能力を定量的に測定するために設計された最初のベンチマークである。現状のVLMに関する実験では, 定性的妥当性と実際の数値的正しさとの間に一貫したギャップがあることが判明した。
論文参考訳（メタデータ） (2025-12-22T16:18:00Z)
LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文参考訳（メタデータ） (2025-10-13T15:19:07Z)
TRAVL: A Recipe for Making Video-Language Models Better Judges of Physics Implausibility [70.24211591214528]
ビデオ生成モデルは、浮動、テレポート、モーフィングのような直感的な物理法則に違反したシーケンスを生成する。既存のビデオランゲージモデル(VLM)は、物理違反の特定に苦慮し、時間的および因果的推論における根本的な制限を明らかにしている。我々は、バランスの取れたトレーニングデータセットと軌道認識型アテンションモジュールを組み合わせた微調整レシピTRAVLを導入し、モーションエンコーディングを改善する。言語バイアスを除去し,視覚的時間的理解を分離する300本のビデオ(150本実写150本)のベンチマークであるImplausiBenchを提案する。
論文参考訳（メタデータ） (2025-10-08T21:03:46Z)
Does Physics Knowledge Emerge in Frontier Models? [19.035965618393096]
VLM(Leading Vision-Language Models)は、視覚知覚と一般的な推論において強力な結果を示す。しかし、物理力学を理解し予測する能力は、まだ不明である。 3つの物理シミュレーションデータセット上で6つのフロンティアVLMをベンチマークする。
論文参考訳（メタデータ） (2025-10-03T22:30:06Z)
Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery [98.58830663687911]
VIPERR-aq1は、方程式推論のための視覚誘導を行うマルチモーダルモデルである。視覚知覚、軌跡データ、象徴的推論を統合し、科学的発見過程をエミュレートする。常に最先端のVLMベースラインを精度と解釈性で上回る。
論文参考訳（メタデータ） (2025-08-24T14:34:21Z)
VLM4D: Towards Spatiotemporal Awareness in Vision Language Models [66.833085504228]
V4DLMは視覚言語モデル(VLM)を評価するために設計された最初のベンチマークである。本ベンチマークは,質問応答対を慎重にキュレートした,多様な実世界および合成ビデオで構成されている。我々は,既存のモデルにおける基本的欠陥を浮き彫りにして,人間のベースラインと比較して重要なパフォーマンスギャップを識別する。
論文参考訳（メタデータ） (2025-08-04T06:06:06Z)
Can Theoretical Physics Research Benefit from Language Agents? [50.57057488167844]
大規模言語モデル(LLM)は、様々な領域にわたって急速に進歩しているが、理論物理学研究への応用はまだ成熟していない。このポジションペーパーは、LLMエージェントが、ドメイン知識やツールボックスと適切に統合された場合、理論的、計算的、応用物理学を加速するのに役立つと主張している。マルチモーダルデータを処理し、検証可能な仮説を提案し、設計実験を行う物理特殊化LSMを構想する。
論文参考訳（メタデータ） (2025-06-06T16:20:06Z)
PhysBench: Benchmarking and Enhancing Vision-Language Models for Physical World Understanding [21.91860938879665]
視覚言語モデル(VLM)は、常識的推論において優れているが、物理世界を理解するのに苦労していることを示す。本稿では、VLMの一般化強度とビジョンモデルの専門知識を組み合わせたフレームワークであるPhysAgentを紹介する。以上の結果から,VLMの物理世界理解能力の向上は,Mokaなどのエージェントの具体化に有効であることが示唆された。
論文参考訳（メタデータ） (2025-01-27T18:59:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。