論文の概要: Believing without Seeing: Quality Scores for Contextualizing Vision-Language Model Explanations
- arxiv url: http://arxiv.org/abs/2509.25844v1
- Date: Tue, 30 Sep 2025 06:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.044145
- Title: Believing without Seeing: Quality Scores for Contextualizing Vision-Language Model Explanations
- Title(参考訳): 見ることなく信じる:視覚言語モデル記述の文脈化のための品質スコア
- Authors: Keyu He, Tejas Srinivasan, Brihi Joshi, Xiang Ren, Jesse Thomason, Swabha Swayamdipta,
- Abstract要約: 本稿では,2つの品質スコアリング機能を用いて,VLMによる説明の相補的な2つの特性を評価することを提案する。
参加者は視覚的コンテキストを観察することなく,VLM予測が正確かどうかを判断しなければならない。
VLMの精度を11.1%向上させることで,VLMの精度が向上することが観察された。
- 参考スコア(独自算出の注目度): 41.09442370052903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When people query Vision-Language Models (VLMs) but cannot see the accompanying visual context (e.g. for blind and low-vision users), augmenting VLM predictions with natural language explanations can signal which model predictions are reliable. However, prior work has found that explanations can easily convince users that inaccurate VLM predictions are correct. To remedy undesirable overreliance on VLM predictions, we propose evaluating two complementary qualities of VLM-generated explanations via two quality scoring functions. We propose Visual Fidelity, which captures how faithful an explanation is to the visual context, and Contrastiveness, which captures how well the explanation identifies visual details that distinguish the model's prediction from plausible alternatives. On the A-OKVQA and VizWiz tasks, these quality scoring functions are better calibrated with model correctness than existing explanation qualities. We conduct a user study in which participants have to decide whether a VLM prediction is accurate without viewing its visual context. We observe that showing our quality scores alongside VLM explanations improves participants' accuracy at predicting VLM correctness by 11.1%, including a 15.4% reduction in the rate of falsely believing incorrect predictions. These findings highlight the utility of explanation quality scores in fostering appropriate reliance on VLM predictions.
- Abstract(参考訳): VLM(Vision-Language Models)に問い合わせるが、視覚的コンテキスト(視覚障害者や低ビジョンユーザーなど)を見ることができない場合、自然言語によるVLM予測を拡大することで、モデル予測が信頼できるかを判断することができる。
しかし,従来の研究では,不正確なVLM予測が正しいことをユーザに容易に納得させることができた。
本稿では,VLMの予測に対する好ましくない過度を緩和するために,2つの品質スコアリング機能を用いて,VLM生成説明の相補的な2つの特性を評価することを提案する。
本稿では、視覚的文脈に対する説明の忠実さを捉える視覚的忠実度と、その説明がモデルの予測と妥当な代替品とを区別する視覚的詳細をいかに正確に識別するかを捉えるコントラスト性を提案する。
A-OKVQAタスクとVizWizタスクでは、これらの品質スコアリング機能は、既存の説明品質よりもモデルの正しさで校正されている。
参加者は視覚的コンテキストを観察することなく,VLM予測が正確かどうかを判断しなければならない。
VLMの精度を11.1%向上させ, 誤信予測率を15.4%削減した。
これらの結果は、VLM予測への適切な依存を促進するために、説明品質スコアの有用性を強調した。
関連論文リスト
- Selective "Selective Prediction": Reducing Unnecessary Abstention in Vision-Language Reasoning [67.82016092549284]
本稿では,選択型視覚言語システムの過剰保持を低減するための推論時アルゴリズムReCoVERRを紹介する。
ReCoVERRは、予測のための追加の証拠を提供する画像の中に、関連する手がかりを見つけようとする。
論文 参考訳(メタデータ) (2024-02-23T21:16:52Z) - Uncertainty-Aware Evaluation for Vision-Language Models [0.0]
現在の評価手法は重要な要素である不確実性を見落としている。
精度の高いモデルも高い不確実性を持つ可能性があることを示す。
また, 実験結果から, モデルの不確かさと言語モデル部分との相関が明らかとなった。
論文 参考訳(メタデータ) (2024-02-22T10:04:17Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。