論文の概要: Saliency-R1: Enforcing Interpretable and Faithful Vision-language Reasoning via Saliency-map Alignment Reward
- arxiv url: http://arxiv.org/abs/2604.04500v1
- Date: Mon, 06 Apr 2026 07:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.13806
- Title: Saliency-R1: Enforcing Interpretable and Faithful Vision-language Reasoning via Saliency-map Alignment Reward
- Title(参考訳): Saliency-R1: Saliency-map Alignment Reward による解釈可能かつ忠実な視覚言語推論の実現
- Authors: Shizhan Gong, Minda Hu, Qiyuan Zhang, Chen Ma, Qi Dou,
- Abstract要約: 視覚言語モデル(VLM)の解釈性と忠実性を改善するためのフレームワークであるSaliency-R1を提案する。
本稿では,生成したトークンに寄与する重要な画像領域を,計算オーバーヘッドを伴わずに効率よく強調する新しいサリエンシマップ手法を提案する。
実験では、Saliency-R1は忠実さ、解釈可能性、全体的なタスクパフォーマンスの推論を改善している。
- 参考スコア(独自算出の注目度): 26.150136674969605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have achieved remarkable success across diverse tasks. However, concerns about their trustworthiness persist, particularly regarding tendencies to lean more on textual cues than visual evidence and the risk of producing ungrounded or fabricated responses. To address these issues, we propose Saliency-R1, a framework for improving the interpretability and faithfulness of VLMs reasoning. Specifically, we introduce a novel saliency map technique that efficiently highlights critical image regions contributing to generated tokens without additional computational overhead. This can further be extended to trace how visual information flows through the reasoning process to the final answers, revealing the alignment between the thinking process and the visual context. We use the overlap between the saliency maps and human-annotated bounding boxes as the reward function, and apply Group Relative Policy Optimization (GRPO) to align the salient parts and critical regions, encouraging models to focus on relevant areas when conduct reasoning. Experiments show Saliency-R1 improves reasoning faithfulness, interpretability, and overall task performance.
- Abstract(参考訳): 視覚言語モデル(VLM)は様々なタスクで顕著な成功を収めた。
しかしながら、彼らの信頼性に関する懸念は、特に視覚的証拠よりもテキスト的手がかりに傾倒する傾向と、根拠のない、または製造されていない応答を生み出すリスクについて継続する。
これらの問題に対処するため、我々はVLM推論の解釈可能性と忠実性を改善するためのフレームワークであるSaliency-R1を提案する。
具体的には,生成したトークンに寄与する重要な画像領域を,計算オーバーヘッドを伴わずに効率よく強調する新しいサリエンシマップ手法を提案する。
これはさらに、視覚情報が推論プロセスから最終回答へとどのように流れていくかを追跡し、思考プロセスと視覚的コンテキストの整合性を明らかにするために拡張することができる。
我々は、報酬関数として、サリエンシマップと人間アノテーション付きバウンディングボックスの重複を利用し、グループ相対政策最適化(GRPO)を適用して、サリエンシ部分と臨界領域を整列させ、推論を行う際に、モデルが関連する領域に集中するように促す。
実験では、Saliency-R1は忠実さ、解釈可能性、全体的なタスクパフォーマンスの推論を改善している。
関連論文リスト
- ProFocus: Proactive Perception and Focused Reasoning in Vision-and-Language Navigation [57.65093237897077]
本稿では,UnderlineProactive PerceptionとUnderlineFocused Reasoningを統合したトレーニングフリープログレッシブフレームワークを提案する。
積極的に知覚するために、ProFocusはパノラマ観測を構造的エゴ中心のセマンティックマップに変換する。
そこで本研究では,BD-MCTS(Branch-Diverse Monte Carlo Tree Search)を提案する。
論文 参考訳(メタデータ) (2026-03-01T04:13:18Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [69.56484419619919]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - Improving Vision-and-Language Reasoning via Spatial Relations Modeling [30.477235227733928]
ビジュアルコモンセンス推論(VCR)は、難しいマルチモーダルタスクである。
提案手法は,より空間的な文脈を維持するために表現を導くことができる。
VCRと他の2つの視覚・言語推論タスクであるVQAとNLVRについて、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-09T11:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。