論文の概要: Visual CoT Makes VLMs Smarter but More Fragile
- arxiv url: http://arxiv.org/abs/2509.23789v1
- Date: Sun, 28 Sep 2025 10:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.448892
- Title: Visual CoT Makes VLMs Smarter but More Fragile
- Title(参考訳): Visual CoTでVLMはより賢く、より繊細に
- Authors: Chunxue Xu, Yiwei Wang, Yujun Cai, Bryan Hooi, Songze Li,
- Abstract要約: チェーン・オブ・ソート(CoT)技術は視覚言語モデル(VLM)における推論を著しく向上させた
Visual CoTは、興味のある領域のトリミングや注釈付けなどの明示的なビジュアル編集を推論プロセスに統合する。
視覚摂動下での視覚的CoTロバスト性の最初の体系的評価について述べる。
- 参考スコア(独自算出の注目度): 79.32638667101817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) techniques have significantly enhanced reasoning in Vision-Language Models (VLMs). Extending this paradigm, Visual CoT integrates explicit visual edits, such as cropping or annotating regions of interest, into the reasoning process, achieving superior multimodal performance. However, the robustness of Visual CoT-based VLMs against image-level noise remains unexplored. In this paper, we present the first systematic evaluation of Visual CoT robustness under visual perturbations. Our benchmark spans 12 image corruption types across 4 Visual Question Answering (VQA) datasets, enabling a comprehensive comparison between VLMs that use Visual CoT, and VLMs that do not. The results reveal that integrating Visual CoT consistently improves absolute accuracy regardless of whether the input images are clean or corrupted by noise; however, it also increases sensitivity to input perturbations, resulting in sharper performance degradation compared to standard VLMs. Through extensive analysis, we identify the intermediate reasoning components of Visual CoT, i.e., the edited image patches , as the primary source of fragility. Building on this analysis, we propose a plug-and-play robustness enhancement method that integrates Grounding DINO model into the Visual CoT pipeline, providing high-confidence local visual cues to stabilize reasoning. Our work reveals clear fragility patterns in Visual CoT and offers an effective, architecture-agnostic solution for enhancing visual robustness.
- Abstract(参考訳): チェーン・オブ・ソート(CoT)技術はビジョン・ランゲージ・モデル(VLM)における推論を大幅に強化した。
このパラダイムを拡張して、Visual CoTは、トリミングや注釈付けのような明示的な視覚的編集を推論プロセスに統合し、優れたマルチモーダルパフォーマンスを実現する。
しかし、画像レベルのノイズに対するVisual CoTベースのVLMのロバスト性は未解明のままである。
本稿では,視覚的摂動下での視覚的CoTロバスト性の最初の体系的評価について述べる。
我々のベンチマークは、4つのVisual Question Answering (VQA)データセットにまたがる12のイメージ破損タイプにまたがっており、Visual CoTを使用するVLMと、そうでないVLMの包括的な比較を可能にする。
その結果,入力画像のノイズによる劣化の有無にかかわらず,Visual CoTの統合により絶対精度が向上することがわかったが,入力摂動に対する感度も向上し,通常のVLMに比べて性能劣化が著しくなった。
広範に解析することで、Visual CoTの中間的推論コンポーネント、すなわち、編集された画像パッチを、脆弱性の主要な原因として識別する。
そこで本研究では,Funding DINOモデルをVisual CoTパイプラインに統合し,信頼性の高い局所的な視覚的手がかりを提供することにより,推論の安定化を図る。
私たちの研究は、Visual CoTの明らかな脆弱性パターンを明らかにし、視覚的堅牢性を高める効果的なアーキテクチャに依存しないソリューションを提供します。
関連論文リスト
- Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning [79.34909830834464]
VLM(Vision-Language Models)は様々な視覚的タスクで顕著な成功を収めているが、複雑な視覚環境では性能が低下している。
視覚的複雑性は、注意エントロピーと強く相関し、推論性能に悪影響を及ぼすことを示す。
本稿では,CARVE(Contrastive Attention Refinement for Visual Enhancement)を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:20:04Z) - Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs [9.406760867809124]
本稿では、簡易かつ効果的な介入であるVISER(Visual Input Structure for Enhanced Reasoning)を紹介する。
私たちは、コアの視覚的推論タスクに対して、実質的なパフォーマンス改善を実証的に示します。
低レベルの視覚構造は、構成的視覚的推論を改善するために強力で未探索の方向であることがわかった。
論文 参考訳(メタデータ) (2025-06-27T11:44:40Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。
本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:05:42Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。