論文の概要: GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning
- arxiv url: http://arxiv.org/abs/2509.17437v1
- Date: Mon, 22 Sep 2025 07:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.266721
- Title: GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning
- Title(参考訳): GeoPQA:幾何学的推論のためのMLLMにおける視覚知覚ギャップのブリッジ
- Authors: Guizhen Chen, Weiwen Xu, Hao Zhang, Hou Pong Chan, Deli Zhao, Anh Tuan Luu, Yu Rong,
- Abstract要約: 幾何学的推論のような視覚集約的なタスクでは、MLLMは幻覚を頻繁に起こし、不正確な推論をもたらす。
本稿では,まず幾何学的構造の視覚的知覚を高め,推論能力を育成する2段階のRLトレーニングフレームワークを提案する。
この2段階学習は, 直接推論学習法と比較して, 幾何学的推論を9.7%改善し, 幾何学的問題解決を9.1%改善する。
- 参考スコア(独自算出の注目度): 76.27615570807774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in reinforcement learning (RL) have enhanced the reasoning abilities of large language models (LLMs), yet the impact on multimodal LLMs (MLLMs) is limited. Particularly in vision-intensive tasks like geometric reasoning, MLLMs hallucinate frequently, leading to inaccurate reasoning. We attribute this to the perceptual bottleneck in MLLMs, which caps the benefits of reasoning training. To quantify this, we design a Geo-Perception Question-Answering (GeoPQA) benchmark, targeting basic geometric concepts and spatial relationships. Experiments on GeoPQA reveal significant shortcomings of MLLMs in visual perception, which constrain RL reward signals for effective training. To address this bottleneck, we propose a two-stage RL training framework by first enhancing the visual perception of geometric structures, then fostering reasoning capabilities. Applied to Qwen2.5-VL-3B-Instruct, our two-stage training improves geometric reasoning by 9.7% and geometric problem solving by 9.1%, compared to the direct reasoning training approach. Our method also generalizes to other vision-intensive domains like figure understanding, highlighting the importance of perceptual grounding in effective MLLM reasoning.
- Abstract(参考訳): 近年の強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高めているが,MLLM(Multimodal LLM)への影響は限られている。
特に幾何学的推論のような視覚集約的なタスクにおいて、MLLMは幻覚を頻繁に起こし、不正確な推論につながる。
これはMLLMにおける知覚的ボトルネックによるもので、推論トレーニングの利点を損なうものである。
これを定量化するために,基本的な幾何学的概念と空間的関係をターゲットとしたGeoPQA(Geo-Perception Question-Answering)ベンチマークを設計する。
GeoPQAの実験では、効果的なトレーニングのためにRL報酬信号を制限する視覚知覚におけるMLLMの重大な欠点が明らかになった。
このボトルネックに対処するために,まず幾何学的構造の視覚的知覚を高め,推論能力を高める2段階のRLトレーニングフレームワークを提案する。
Qwen2.5-VL-3B-Instructに応用すると,2段階の学習では,幾何学的推論が9.7%,幾何学的問題解決が9.1%向上する。
また、図解理解などの視覚集約的な領域にも一般化し、効果的なMLLM推論における知覚的グラウンドディングの重要性を強調した。
関連論文リスト
- DIP-R1: Deep Inspection and Perception with RL Looking Through and Understanding Complex Scenes [51.895756593200296]
RL(DIP-R1)を用いた深部検査と知覚は,MLLMの視覚知覚能力を高めるために設計されている。
DIP-R1は、3つのシンプルなルールベースの報酬モデルを通して、MLLMをビジュアルシーンの詳細な検査を通してガイドする。
ドメイン内およびドメイン外のさまざまなシナリオにおいて、一貫性と大幅な改善を実現します。
論文 参考訳(メタデータ) (2025-05-29T07:16:16Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Forgotten Polygons: Multimodal Large Language Models are Shape-Blind [55.65083505741497]
視覚言語タスクの性能は高いが、Multimodal Large Language Models (MLLM) は数学的な問題解決に苦戦している。
以上の結果から,正多角形同定において,トップモデルが50%未満の精度で達成されるなど,形状認識の根本的な欠点が明らかとなった。
図中の視覚的アノテーションを明示的に参照することにより、多段階の数学的推論を強化する。
論文 参考訳(メタデータ) (2025-02-21T22:04:09Z) - EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning [16.631783647518706]
既存のMLLMは主にLLMバックボーンを最適化して幾何学的推論能力を得るが、視覚的理解の改善はめったに強調しない。
以上の結果より,現在のMLLMは不正確な幾何学的知覚と幻覚に苦しむことが明らかとなった。
ElevAte Geometric reasoningのために設計された2段階の視覚拡張MLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-21T07:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。