論文の概要: From Diagnosis to Improvement: Probing Spatio-Physical Reasoning in Vision Language Models
- arxiv url: http://arxiv.org/abs/2508.10770v1
- Date: Thu, 14 Aug 2025 15:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.391488
- Title: From Diagnosis to Improvement: Probing Spatio-Physical Reasoning in Vision Language Models
- Title(参考訳): 診断から改善へ:視覚言語モデルにおける時空間物理推論の提案
- Authors: Tiancheng Han, Yunfei Gao, Yong Li, Wuzhou Yu, Qiaosheng Zhang, Wenqi Shao,
- Abstract要約: 物理的推論は、堅牢な世界モデルを構築するための重要なステップである。
近年の視覚言語モデル (VLM) は、特殊領域において顕著な進歩を見せている。
しかし、その物理的推論能力はほとんど解明されていない。
- 参考スコア(独自算出の注目度): 10.740632493925018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-physical reasoning, a foundation capability for understanding the real physics world, is a critical step towards building robust world models. While recent vision language models (VLMs) have shown remarkable progress in specialized domains like multimodal mathematics and pure spatial understanding, their capability for spatio-physical reasoning remains largely unexplored. This paper provides a comprehensive diagnostic analysis of mainstream VLMs, revealing that current models perform inadequately on this crucial task. Further detailed analysis shows that this underperformance is largely attributable to biases caused by human-like prior and a lack of deep reasoning. To address these challenges, we apply supervised fine-tuning followed by rule-based reinforcement learning to Qwen2.5-VL-7B, resulting in significant improvements in spatio-physical reasoning capabilities and surpassing leading proprietary models. Nevertheless, despite this success, the model's generalization to new physics scenarios remains limited -- underscoring the pressing need for new approaches in spatio-physical reasoning.
- Abstract(参考訳): 実世界を理解するための基礎的能力である空間物理推論は、堅牢な世界モデルを構築するための重要なステップである。
近年の視覚言語モデル(VLM)は、マルチモーダル数学や純粋空間理解のような専門分野において顕著な進歩を見せているが、空間物理推論の能力はほとんど解明されていない。
本稿では,本研究の主流であるVLMの包括的診断分析を行い,この重要な課題に対して,現在のモデルが不十分であることを示す。
さらなる詳細な分析により、この過小評価は、人間のような事前の偏見と深い推論の欠如に起因することが示されている。
これらの課題に対処するため,教師付き微調整と規則に基づく強化学習をQwen2.5-VL-7Bに適用した。
しかし、この成功にもかかわらず、モデルの新しい物理シナリオへの一般化は限定的であり、空間物理学的推論における新しいアプローチの必要性が強まっていることを示している。
関連論文リスト
- Symbolic or Numerical? Understanding Physics Problem Solving in Reasoning LLMs [12.215295420714787]
本研究では、Deepseek-R1のような高度な命令調整推論モデルを用いて、挑戦的なSciBenchベンチマークから計算した様々な物理問題に対処する。
複雑な物理問題に答える際の最先端の精度を達成するだけでなく、象徴的導出を強調する独特の推論パターンも生成する。
論文 参考訳(メタデータ) (2025-07-02T03:51:16Z) - Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Understanding Overadaptation in Supervised Fine-Tuning: The Role of Ensemble Methods [11.695512384798299]
監視された微調整は、基礎モデルを専門的なタスクに適応するための支配的なアプローチである。
視覚モデルでは、事前訓練されたモデルと微調整されたモデルを組み合わせることでこの問題を軽減することが示されている。
アンサンブルモデルは基礎モデルからの一般的な知識を保持するだけでなく、微調整されたドメイン自体においても、微調整されたモデルよりも優れる。
論文 参考訳(メタデータ) (2025-06-02T17:23:16Z) - Evaluating the Logical Reasoning Abilities of Large Reasoning Models [15.009205651973666]
大規模な推論モデルにおける論理的推論を評価するためのベンチマークであるLogiEvalを紹介する。
LogiEvalは様々な推論タイプ(帰納的、帰納的、類推的、帰納的)とタスク形式(論理的シーケンス、引数解析など)にまたがる。
実験により,現代の推論モデルでは,4選択の議論解析問題や類似推論において,人間の性能を上回っていることがわかった。
解析の結果,人為的性能はモデル故障分布を反映しないことがわかった。
論文 参考訳(メタデータ) (2025-05-17T05:36:14Z) - Scaling and Beyond: Advancing Spatial Reasoning in MLLMs Requires New Recipes [84.1059652774853]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Large Language Models for Forecasting and Anomaly Detection: A
Systematic Literature Review [10.325003320290547]
本稿では,Large Language Models (LLMs) の予測・異常検出への応用について概説する。
LLMは、パターンを特定し、将来の事象を予測し、様々な領域にまたがる異常な振る舞いを検出するために、広範囲なデータセットを解析し分析する大きな可能性を示してきた。
このレビューでは、膨大な歴史的データセットへの依存、さまざまな文脈における一般化可能性の問題、モデル幻覚の現象など、より広範な採用と有効性を阻害するいくつかの重要な課題を取り上げている。
論文 参考訳(メタデータ) (2024-02-15T22:43:02Z) - The Essential Role of Causality in Foundation World Models for Embodied AI [102.75402420915965]
身体的なAIエージェントは、さまざまな現実世界環境で新しいタスクを実行する能力を必要とします。
現在の基礎モデルは物理的相互作用を正確にモデル化することができないため、Embodied AIには不十分である。
因果関係の研究は、検証世界モデルの構築に寄与する。
論文 参考訳(メタデータ) (2024-02-06T17:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。