Fugu-MT 論文翻訳(概要): Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding

論文の概要: Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding

arxiv url: http://arxiv.org/abs/2502.11492v1
Date: Mon, 17 Feb 2025 06:54:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.124847
Title: Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding
Title（参考訳）: 視覚言語モデルが視覚知能と相互作用する理由 : チャートと幾何学的理解の強化に向けて
Authors: Kung-Hsiang Huang, Can Qin, Haoyi Qiu, Philippe Laban, Shafiq Joty, Caiming Xiong, Chien-Sheng Wu,
Abstract要約: 視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
参考スコア（独自算出の注目度）: 94.64781599202882
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision Language Models (VLMs) have achieved remarkable progress in multimodal tasks, yet they often struggle with visual arithmetic, seemingly simple capabilities like object counting or length comparison, which are essential for relevant complex tasks like chart understanding and geometric reasoning. In this work, we first investigate the root causes of this deficiency through a suite of probing tasks focusing on basic visual arithmetic. Our analysis reveals that while pre-trained vision encoders typically capture sufficient information, the text decoder often fails to decode it correctly for arithmetic reasoning. To address this, we propose CogAlign, a novel post-training strategy inspired by Piaget's theory of cognitive development. CogAlign trains VLMs to recognize invariant properties under visual transformations. We demonstrate that this approach significantly improves the performance of three diverse VLMs on our proposed probing tasks. Furthermore, CogAlign enhances performance by an average of 4.6% on CHOCOLATE and 2.9% on MATH-VISION, outperforming or matching supervised fine-tuning methods while requiring only 60% less training data. These results highlight the effectiveness and generalizability of CogAlign in improving fundamental visual arithmetic capabilities and their transfer to downstream tasks.
Abstract（参考訳）: 視覚言語モデル(VLM)は、マルチモーダルタスクにおいて顕著な進歩を遂げているが、しばしば視覚的算術(オブジェクトのカウントや長さ比較のような一見単純な能力)に苦しむ。本研究ではまず,基本的な視覚的算術に焦点をあてた一連の探索タスクを通して,この欠損の根本原因について検討する。我々の分析によると、事前学習された視覚エンコーダは、通常十分な情報をキャプチャするが、テキストデコーダは算術的推論のために正しく復号できないことが多い。そこで我々は,ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。 CogAlignは、視覚変換の下で不変性を認識するためにVLMを訓練する。提案手法により,提案課題における3種類のVLMの性能が大幅に向上することが実証された。さらに、CogAlignはCHOCOLATEで平均4.6%、MATH-VISIONで平均2.9%、教師付き微調整法で性能を向上し、トレーニングデータの60%しか必要としない。これらの結果は、基本的な視覚的算術能力の改善と下流タスクへの移行におけるCogAlignの有効性と一般化性を強調している。

関連論文リスト

Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning [105.25503508433758]
我々は182,384サンプルの多種多様な大規模データセットであるtextbfZebra-CoT$を紹介した。スケッチや視覚的推論が特に自然なタスクの4つのカテゴリに注目します。微調整されたベーゲル7Bは高品質な視覚的推論連鎖を生成するモデルを生成する。
論文参考訳（メタデータ） (2025-07-22T16:35:36Z)
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning [20.632248864242968]
言語のみのモデルでは、生の視覚入力を消費するMLLMと同等またはそれ以上の性能が得られることを示す。そこで我々は,アルゴリズムの修正を必要とせず,知覚の堅牢性を高めるシンプルな視覚摂動フレームワークを提案する。本研究は,マルチモーダル数学的推論における視覚摂動の重要性を明らかにするものである。
論文参考訳（メタデータ） (2025-06-11T13:39:46Z)
Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文参考訳（メタデータ） (2025-05-24T14:25:48Z)
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。 TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文参考訳（メタデータ） (2025-03-17T16:45:12Z)
Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文参考訳（メタデータ） (2025-01-11T04:08:44Z)
Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs? [48.41029452721923]
視覚言語モデル(VLM)は、視覚的質問応答(VQA)や画像キャプションといったタスクにおいて印象的である。画像に多段階推論を適用する能力は、モダリティの不均衡や脆さの知覚を引き起こす。
論文参考訳（メタデータ） (2025-01-05T21:36:38Z)
Intriguing Properties of Large Language and Vision Models [18.449076451976236]
大規模言語とビジョンモデル(LLVM)は、その顕著な一般化性能のために、大きな注目と開発努力を受けている。高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスクのパフォーマンスは驚くほど低いままである。 LLVMの最も一般的なファミリー(LLaVA)を10評価ベンチマークで評価することで、この問題を調査する。
論文参考訳（メタデータ） (2024-10-07T05:07:01Z)
Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training [24.989732666940153]
オープンソースのマルチモーダル大言語モデル(MLLM)は、テキスト入力や視覚入力を含む様々なタスクに優れる。 MLLMは複雑なマルチモーダルな数学的推論に苦慮し、GPT-4V(ision)やGemini-Proといった独自のモデルに遅れを取っている。本稿では,2段階のトレーニングパイプラインVCARを提案する。
論文参考訳（メタデータ） (2024-04-22T21:59:35Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
PerceptionGPT: Effectively Fusing Visual Perception into LLM [31.34127196055722]
視覚入力と大言語モデル(LLM)の統合は、多モーダル機能において顕著な進歩をもたらし、視覚的大言語モデル(VLLM)がもたらされた。本稿では,視覚的知覚能力を持つVLLMを効率よく装備するPerceptionGPTという新しいエンドツーエンドフレームワークを提案する。本手法は,視覚出力を離散トークンとして定式化する従来の手法によるトレーニングの難しさを著しく軽減する。
論文参考訳（メタデータ） (2023-11-11T16:59:20Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。