論文の概要: PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues
- arxiv url: http://arxiv.org/abs/2603.05869v1
- Date: Fri, 06 Mar 2026 03:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.987605
- Title: PatchCue: Enhancing Vision-Language Model Reasoning with Patch-Based Visual Cues
- Title(参考訳): PatchCue: パッチベースのビジュアルキューによるビジョンランゲージモデル推論の強化
- Authors: Yukun Qi, Pei Fu, Hang Li, Yuhan Liu, Chao Jiang, Bin Qin, Zhenbo Luo, Jian Luan,
- Abstract要約: PatchCueは、視覚言語モデル(VLM)の視覚的推論能力を大幅に向上するパッチベースの視覚的キューパラダイムである。
イメージをパッチに分割し、パッチレベルでキューを表現することで、PatchCueは人間の知覚的習慣と整合し、最新のVLMのパッチトークン入力を活用する。
その結果,パッチレベルのキューはピクセルレベルのバウンディングボックスとポイントベースのキューの両方に優れており,より効果的で認知的に整合した視覚的推論パラダイムを提供することがわかった。
- 参考スコア(独自算出の注目度): 28.522392005763873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have achieved remarkable progress on a wide range of challenging multimodal understanding and reasoning tasks. However, existing reasoning paradigms, such as the classical Chain-of-Thought (CoT), rely solely on textual information and often underutilize important visual cues. While prior work has incorporated pixel-level visual cues, these representations require precise spatial localization, introducing additional learning complexity. To address this, we propose PatchCue, a novel patch-based visual cue paradigm designed to significantly enhance the visual reasoning capabilities of VLMs. By partitioning images into patches and representing cues at the patch level, PatchCue aligns better with human perceptual habits and leverages the patch-tokenized input of modern VLMs. We train VLMs using a two-stage approach: cold-start supervised fine-tuning to output patch-level cues, followed by reinforcement learning with a process-supervised cue reward that guides intermediate visual reasoning steps. Extensive experiments on multiple VLMs and diverse benchmarks, including general visual question answering, complex reasoning, and document understanding, demonstrate that PatchCue consistently improves overall model performance. Our results show that patch-level cues outperform both pixel-level bounding boxes and point-based cues, providing a more effective and cognitively aligned visual reasoning paradigm.
- Abstract(参考訳): VLM(Vision-Language Models)は、多モーダルな理解と推論の幅広いタスクにおいて顕著な進歩を遂げている。
しかし、古典的なチェーン・オブ・ソート(CoT)のような既存の推論パラダイムは、テキスト情報のみに依存しており、しばしば重要な視覚的手がかりを過小評価している。
以前の研究ではピクセルレベルの視覚的手がかりが取り入れられていたが、これらの表現には正確な空間的局所化が必要であり、さらなる学習の複雑さがもたらされた。
そこで我々は,VLMの視覚的推論能力を大幅に向上させるために,パッチベースの新しい視覚的キューパラダイムであるPatchCueを提案する。
イメージをパッチに分割し、パッチレベルでキューを表現することで、PatchCueは人間の知覚的習慣と整合し、最新のVLMのパッチトークン入力を活用する。
我々は2段階のアプローチを用いてVLMを訓練する: コールドスタート制御された微調整によりパッチレベルのキューを出力し、続いて、中間的な視覚的推論ステップを導くプロセス教師付きキュー報酬による強化学習を行う。
一般的な視覚的質問応答、複雑な推論、文書理解など、複数のVLMと多様なベンチマークに関する大規模な実験は、PatchCueがモデル全体のパフォーマンスを一貫して改善していることを示しています。
その結果,パッチレベルのキューはピクセルレベルのバウンディングボックスとポイントベースのキューの両方に優れており,より効果的で認知的に整合した視覚的推論パラダイムを提供することがわかった。
関連論文リスト
- VideoAnchor: Reinforcing Subspace-Structured Visual Cues for Coherent Visual-Spatial Reasoning [69.64660280965971]
VideoAnchorは、サブスペース親和性を活用してフレーム間の視覚的手がかりを強化するプラグイン・アンド・プレイモジュールである。
InternVL2-8BとQ2.5VL-72Bのベンチマークで一貫した性能向上を示した。
私たちのコードはhttps://github.com/feufhd/VideoAnchor.comで公開されます。
論文 参考訳(メタデータ) (2025-09-29T17:54:04Z) - BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Models [10.16893890191528]
マルチモーダル大言語モデル (MLLM) は、視覚プロジェクタを用いて、よく訓練された視覚エンコーダと大きな言語モデルをブリッジすることで、視覚的理解を実現する。
現在のアライメントアプローチは、視覚埋め込みを文脈的手がかりとして扱い、単にテキスト出力に自己回帰的監督を適用するだけである。
本稿では,初期視覚埋め込み生成において,プロジェクタを直接指導する手法として,LLM内の洗練された視覚埋め込みを利用するBASICを提案する。
論文 参考訳(メタデータ) (2025-08-09T09:00:45Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。