Fugu-MT 論文翻訳(概要): PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

論文の概要: PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

arxiv url: http://arxiv.org/abs/2603.05869v1
Date: Fri, 06 Mar 2026 03:44:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-09 13:17:44.987605
Title: PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues
Title（参考訳）: PatchCue: パッチベースのビジュアルキューによるビジョンランゲージモデル推論の強化
Authors: Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan,
Abstract要約: PatchCueは、視覚言語モデル(VLM)の視覚的推論能力を大幅に向上するパッチベースの視覚的キューパラダイムである。イメージをパッチに分割し、パッチレベルでキューを表現することで、PatchCueは人間の知覚的習慣と整合し、最新のVLMのパッチトークン入力を活用する。その結果,パッチレベルのキューはピクセルレベルのバウンディングボックスとポイントベースのキューの両方に優れており,より効果的で認知的に整合した視覚的推論パラダイムを提供することがわかった。
参考スコア（独自算出の注目度）: 28.522392005763873
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Models (VLMs) have achieved remarkable progress on a wide range of challenging multimodal understanding and reasoning tasks. However, existing reasoning paradigms, such as the classical Chain-of-Thought (CoT), rely solely on textual information and often underutilize important visual cues. While prior work has incorporated pixel-level visual cues, these representations require precise spatial localization, introducing additional learning complexity. To address this, we propose PatchCue, a novel patch-based visual cue paradigm designed to significantly enhance the visual reasoning capabilities of VLMs. By partitioning images into patches and representing cues at the patch level, PatchCue aligns better with human perceptual habits and leverages the patch-tokenized input of modern VLMs. We train VLMs using a two-stage approach: cold-start supervised fine-tuning to output patch-level cues, followed by reinforcement learning with a process-supervised cue reward that guides intermediate visual reasoning steps. Extensive experiments on multiple VLMs and diverse benchmarks, including general visual question answering, complex reasoning, and document understanding, demonstrate that PatchCue consistently improves overall model performance. Our results show that patch-level cues outperform both pixel-level bounding boxes and point-based cues, providing a more effective and cognitively aligned visual reasoning paradigm.
Abstract（参考訳）: VLM(Vision-Language Models)は、多モーダルな理解と推論の幅広いタスクにおいて顕著な進歩を遂げている。しかし、古典的なチェーン・オブ・ソート(CoT)のような既存の推論パラダイムは、テキスト情報のみに依存しており、しばしば重要な視覚的手がかりを過小評価している。以前の研究ではピクセルレベルの視覚的手がかりが取り入れられていたが、これらの表現には正確な空間的局所化が必要であり、さらなる学習の複雑さがもたらされた。そこで我々は,VLMの視覚的推論能力を大幅に向上させるために,パッチベースの新しい視覚的キューパラダイムであるPatchCueを提案する。イメージをパッチに分割し、パッチレベルでキューを表現することで、PatchCueは人間の知覚的習慣と整合し、最新のVLMのパッチトークン入力を活用する。我々は2段階のアプローチを用いてVLMを訓練する: コールドスタート制御された微調整によりパッチレベルのキューを出力し、続いて、中間的な視覚的推論ステップを導くプロセス教師付きキュー報酬による強化学習を行う。一般的な視覚的質問応答、複雑な推論、文書理解など、複数のVLMと多様なベンチマークに関する大規模な実験は、PatchCueがモデル全体のパフォーマンスを一貫して改善していることを示しています。その結果,パッチレベルのキューはピクセルレベルのバウンディングボックスとポイントベースのキューの両方に優れており,より効果的で認知的に整合した視覚的推論パラダイムを提供することがわかった。

論文の概要: PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues

関連論文リスト