論文の概要: On the Faithfulness of Visual Thinking: Measurement and Enhancement
- arxiv url: http://arxiv.org/abs/2510.23482v1
- Date: Mon, 27 Oct 2025 16:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.614403
- Title: On the Faithfulness of Visual Thinking: Measurement and Enhancement
- Title(参考訳): 視覚的思考の信条:測定と拡張について
- Authors: Zujing Liu, Junwen Pan, Qi She, Yuan Gao, Guisong Xia,
- Abstract要約: 最近の視覚言語モデルは、強化微調整後、視覚テキストのマルチモーダル・チェーン・オブ・ソート・トレースを生成することができる。
MCoTに組み込まれた視覚情報はしばしば不正確であるが、正確な答えは得られない。
本稿では,Sufficient-Component Cause Model (SCCM) 学習と呼ばれる新しいMCoT学習戦略を提案する。
- 参考スコア(独自算出の注目度): 37.52991654147004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large vision-language models (LVLMs) can generate vision-text multimodal chain-of-thought (MCoT) traces after reinforcement fine-tuning (RFT). However, we observe that the visual information incorporated in MCoT is often inaccurate, though still yield correct answers, indicating a lack of faithfulness in the MCoT reasoning process. We attribute this unfaithfulness to the RL reward in RFT, which solely incentivizes the format of interleaved vision-text cues, ie, it encourages the model to incorporate visual information into its text reasoning steps without considering the correctness of the visual information. In this paper, we first probe the faithfulness of MCoT by measuring how much the prediction changes when its visual and textual thoughts are intervened. Surprisingly, the model's predictions remain nearly unchanged under visual intervention but change significantly under textual intervention, indicating that the visual evidence is largely ignored. To further analyze visual information, we introduce an automated LVLM-based evaluation metric that quantifies the faithfulness of visual cues from two perspectives: reliability and sufficiency. Our evaluation reveals that the visual information in current MCoT traces is simultaneously unreliable and insufficient. To address this issue, we propose a novel MCoT learning strategy termed Sufficient-Component Cause Model (SCCM) learning. This approach encourages the MCoT to generate sufficient yet minimal visual components that are independently capable of leading to correct answers. We note that the proposed SCCM is annotation-free and compatible with various RFT for MCoT in a plug-and-play manner. Empirical results demonstrate that SCCM consistently improves the visual faithfulness across a suite of fine-grained perception and reasoning benchmarks. Code is available at https://github.com/EugeneLiu01/Faithful_Thinking_with_Image.
- Abstract(参考訳): 近年の大規模視覚言語モデル(LVLM)は、強化微細チューニング(RFT)後、視覚テキストのマルチモーダル・チェーン・オブ・シント(MCoT)のトレースを生成することができる。
しかし、MCoTに組み込まれた視覚情報は、しばしば不正確であるが、依然として正しい答えが得られており、MCoT推論プロセスにおける忠実性の欠如が示唆されている。
この不誠実さは、視覚情報の正しさを考慮せずに、視覚情報をテキスト推論ステップに組み込むことをモデルに奨励する、RFTにおけるRL報酬に起因している。
本稿では、まず、視覚的思考とテキスト的思考が介入された際の予測がどれほど変化するかを測定することで、MCoTの忠実さを調査する。
驚くべきことに、モデルの予測は視覚的介入の下でほとんど変化しないが、テキスト的介入によって大幅に変化し、視覚的証拠がほとんど無視されていることを示している。
視覚情報をさらに分析するために,信頼性と充足性という2つの視点から視覚的手がかりの忠実度を定量化する,LVLMに基づく自動評価指標を導入する。
評価の結果、現在のMCoTトレースの視覚情報は、同時に信頼性が低く、不十分であることが判明した。
そこで本研究では,SCCM学習と呼ばれる新しいMCoT学習戦略を提案する。
このアプローチは、MCoTが独立して正しい答えを導くことができる十分な最小限のビジュアルコンポーネントを生成することを奨励する。
提案したSCCMはアノテーションフリーで,MCoT用の様々なRTTとプラグイン・アンド・プレイ方式で互換性がある。
実証的な結果から、SCCMは微妙な知覚と推論のベンチマークによって、視覚的忠実度を一貫して改善することが示された。
コードはhttps://github.com/EugeneLiu01/Faithful_Thinking_with_Imageで公開されている。
関連論文リスト
- Rethinking the Text-Vision Reasoning Imbalance in MLLMs through the Lens of Training Recipes [54.374410871041164]
MLLM(Multimodal large language model)は、視覚・言語タスクにおいて強力な機能を示す。
近年の研究では、視覚的・テキスト的モダリティ間の推論能力の不均衡が指摘されている。
我々は、この現象を、テキスト中心と視覚中心の入力のパフォーマンス格差として定義される、テクティモダリティギャップと呼ぶ。
論文 参考訳(メタデータ) (2025-10-26T21:06:13Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - Visual CoT Makes VLMs Smarter but More Fragile [79.32638667101817]
チェーン・オブ・ソート(CoT)技術は視覚言語モデル(VLM)における推論を著しく向上させた
Visual CoTは、興味のある領域のトリミングや注釈付けなどの明示的なビジュアル編集を推論プロセスに統合する。
視覚摂動下での視覚的CoTロバスト性の最初の体系的評価について述べる。
論文 参考訳(メタデータ) (2025-09-28T10:19:59Z) - Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought [72.93910800095757]
大規模視覚言語モデル(LVLM)の性能と解釈性を改善するマルチモーダル・チェーン・オブ・シント(MCoT)
我々は,MCoTフォーマットによらず,画像情報を推論プロセスに伝達する視覚的思考を取り入れることで,MCoTがLVLMを促進することを示す。
また、視覚的思考の内部的な性質を探求し、視覚的思考が入力画像と深いトランスフォーマー層への推論の間の仲介として機能することを発見した。
論文 参考訳(メタデータ) (2025-05-21T13:29:58Z) - Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis [21.869968563545736]
我々は、暗黙的な視覚的誤解(IVM)を定義し、MLLMは視覚的入力を完全に理解することなく正しい回答を提供する。
IVMの定量化には,スケール非依存の計量,テクスチャータテンションの精度,新しいベンチマークを導入する。
我々は、より微細な粒度にアプローチを拡張し、その効果を単調なシナリオで実証する。
論文 参考訳(メタデータ) (2025-05-15T17:52:40Z) - Vision Matters When It Should: Sanity Checking Multimodal Machine
Translation Models [25.920891392933058]
マルチモーダル機械翻訳(MMT)システムは、視覚的コンテキストが利用できる場合、テキストのみのニューラルネットワーク翻訳(NMT)よりも優れていることが示されている。
近年の研究では、MMTモデルの性能は、関連画像が非関連画像やノイズに置き換えられた場合にのみ、限界的に影響を受けることが示されている。
論文 参考訳(メタデータ) (2021-09-08T03:32:48Z) - What Makes for Good Views for Contrastive Learning? [90.49736973404046]
我々は、タスク関連情報をそのまま保持しながら、ビュー間の相互情報(MI)を減らすべきであると論じる。
教師なし・半教師なしのフレームワークを考案し、MIの削減をめざして効果的なビューを学習する。
副産物として、ImageNet分類のための教師なし事前学習における最先端の精度を実現する。
論文 参考訳(メタデータ) (2020-05-20T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。