論文の概要: InPhyRe Discovers: Large Multimodal Models Struggle in Inductive Physical Reasoning
- arxiv url: http://arxiv.org/abs/2509.12263v1
- Date: Fri, 12 Sep 2025 20:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.661281
- Title: InPhyRe Discovers: Large Multimodal Models Struggle in Inductive Physical Reasoning
- Title(参考訳): InPhyReが発見:インダクティブ物理推論における大規模マルチモーダルモデル
- Authors: Gautam Sreekumar, Vishnu Naresh Boddeti,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、運動量保存のような訓練中に観察される普遍的な物理法則をパラメトリック知識として符号化する。
LMMは、視覚的な入力から潜在的な衝突イベントの結果など、物理的な推論クエリに答えることを可能にする。
InPhyReは、LMMにおける帰納的物理的推論を測定する最初の視覚的質問応答ベンチマークである。
- 参考スコア(独自算出の注目度): 20.118472886856246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal models (LMMs) encode universal physical laws observed during training, such as momentum conservation, as parametric knowledge. It allows LMMs to answer physical reasoning queries, such as the outcome of a potential collision event from visual input. However, since parametric knowledge includes only the physical laws seen during training, it is insufficient for reasoning when the inference scenario violates these physical laws. In contrast, humans possess the skill to adapt their physical reasoning to unseen physical environments from a few visual examples. This ability, which we refer to as inductive physical reasoning, is indispensable for LMMs if they are to replace human agents in safety-critical applications. Despite its importance, existing visual benchmarks evaluate only the parametric knowledge in LMMs, and not inductive physical reasoning. To this end, we propose InPhyRe, the first visual question answering benchmark to measure inductive physical reasoning in LMMs. InPhyRe evaluates LMMs on their ability to predict the outcome of collision events in algorithmically generated synthetic collision videos. By inspecting 13 LMMs, InPhyRe informs us that (1) LMMs struggle to apply their limited parametric knowledge about universal physical laws to reasoning, (2) inductive physical reasoning in LMMs is weak when demonstration samples violate universal physical laws, and (3) inductive physical reasoning in LMMs suffers from language bias and largely ignores the visual inputs, questioning the trustworthiness of LMMs regarding visual inputs.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、運動量保存のような訓練中に観察される普遍的な物理法則をパラメトリック知識として符号化する。
LMMは、視覚的な入力から潜在的な衝突イベントの結果など、物理的な推論クエリに答えることを可能にする。
しかし、パラメトリック知識はトレーニング中に見られる物理法則のみを含むため、推論シナリオがこれらの物理法則に違反している場合の推論には不十分である。
対照的に、人間はいくつかの視覚的な例から、物理的な推論を見えない物理的環境に適用する能力を持っている。
この能力は、私たちが誘導的物理的推論(inductive physical reasoning)と呼んでいるもので、安全クリティカルな応用において人間のエージェントを置き換えるためには、LMMにとって不可欠である。
その重要性にもかかわらず、既存のビジュアルベンチマークは、誘導的物理的推論ではなく、LMMにおけるパラメトリック知識のみを評価する。
この目的のために,LMMにおける帰納的物理的推論を計測する最初の視覚的質問応答ベンチマークであるInPhyReを提案する。
InPhyReは、アルゴリズムによって生成された合成衝突ビデオにおける衝突イベントの結果を予測する能力に基づいてLMMを評価する。
13のLMMを検査することで,(1)LMMは,(1)普遍物理法則に関する限られたパラメトリック知識を推論に適用するのに苦労している,(2)デモンストレーションサンプルが普遍物理法則に違反している場合,LMMにおける帰納的物理的推論は弱い,(3)LMMにおける帰納的物理的推論は言語バイアスに悩まされ,視覚入力を無視する,といったことが分かる。
関連論文リスト
- Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT [24.085953089267772]
複雑な場面において,OpenAI o3 と GPT-4o が基本的な物理法則,空間的相互作用,因果的影響を把握できないことを示す。
我々は、視覚連鎖(CoT)レンズによる視覚的身体的推論を厳格に評価するベンチマークであるMVPBenchを紹介した。
最先端のMLLMでさえ、物理領域における視覚的推論精度の低下と画像テキストアライメントの弱さを示す。
論文 参考訳(メタデータ) (2025-05-30T03:48:59Z) - EnigmaToM: Improve LLMs' Theory-of-Mind Reasoning Capabilities with Neural Knowledge Base of Entity States [15.557449564031975]
理論-オブ-ミンド(ToM)は人間の相互作用の基本であるが、Large Language Models (LLMs) の課題は残る。
Enigma(エニグマ)の神経知識ベースを統合することでToM推論を強化する新しいニューロシンボリックフレームワークであるEnigmaToMを提案する。
ToMi, HiToM, FANToM ベンチマークによる実験結果から, EnigmaToM は様々な大きさの LLM における ToM 推論を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-03-05T10:13:05Z) - Re-evaluating Theory of Mind evaluation in large language models [3.262532929657758]
認知科学からインスピレーションを得て,大規模言語モデルにおけるToM評価の状況を再評価する。
LLMがToMを持つかどうかについての意見の相違の主な理由は、モデルが人間の行動にマッチするかどうかの明確さの欠如である。
ToMと実用的コミュニケーションの関係など,今後の研究の方向性について論じる。
論文 参考訳(メタデータ) (2025-02-28T14:36:57Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
単語と画素の対応が視覚的接地によって誘導されるという事実は、十分に訓練されたLMMの注意機構に本質的に存在するという事実に基づいている。
表現セグメンテーションと単視的物語グラウンドベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - What if...?: Thinking Counterfactual Keywords Helps to Mitigate Hallucination in Large Multi-modal Models [50.97705264224828]
大規模マルチモーダルモデルに反現実的思考を組み込む新しい手法である反現実的インセプションを提案する。
我々は、より広い文脈のシーン理解にまたがる応答をモデルが関与し、生成することを目指している。
オープンソースモデルとプロプライエタリモデルの両方を含む様々なLMMの包括的分析は、反事実的思考が幻覚を著しく減少させることを裏付ける。
論文 参考訳(メタデータ) (2024-03-20T11:27:20Z) - Assessing the Reasoning Capabilities of LLMs in the context of Evidence-based Claim Verification [22.92500697622486]
証拠と組み合わせた主張を原子推論タイプに分解するフレームワークを提案する。
私たちはこのフレームワークを使用して、現実世界のクレームを取り入れた最初のクレーム検証ベンチマークであるRECVを作成します。
我々は、複数のプロンプト設定の下で、最先端のLLMを3つ評価する。
論文 参考訳(メタデータ) (2024-02-16T14:52:05Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。