論文の概要: Improving VQA Reliability: A Dual-Assessment Approach with Self-Reflection and Cross-Model Verification
- arxiv url: http://arxiv.org/abs/2512.14770v1
- Date: Tue, 16 Dec 2025 09:24:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.736728
- Title: Improving VQA Reliability: A Dual-Assessment Approach with Self-Reflection and Cross-Model Verification
- Title(参考訳): VQA信頼性の向上: 自己回帰とクロスモデル検証によるデュアルアセスメントアプローチ
- Authors: Xixian Wu, Yang Ou, Pengchao Tian, Zian Yang, Jielei Zhang, Peiyi Li, Longwen Gao,
- Abstract要約: 視覚言語モデル(VLM)は視覚質問応答(VQA)において有意な可能性を証明している
本稿では, 自己回帰とクロスモデル検証を統合した包括的不確実性推定手法であるDAVR(Dual-Assessment for VLM Reliability)を提案する。
DAVRは39.64ドル、100-AUCは97.22ドルで、第一位を確保し、VLM応答の信頼性を高める効果を示す。
- 参考スコア(独自算出の注目度): 5.321257282649206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have demonstrated significant potential in Visual Question Answering (VQA). However, the susceptibility of VLMs to hallucinations can lead to overconfident yet incorrect answers, severely undermining answer reliability. To address this, we propose Dual-Assessment for VLM Reliability (DAVR), a novel framework that integrates Self-Reflection and Cross-Model Verification for comprehensive uncertainty estimation. The DAVR framework features a dual-pathway architecture: one pathway leverages dual selector modules to assess response reliability by fusing VLM latent features with QA embeddings, while the other deploys external reference models for factual cross-checking to mitigate hallucinations. Evaluated in the Reliable VQA Challenge at ICCV-CLVL 2025, DAVR achieves a leading $Φ_{100}$ score of 39.64 and a 100-AUC of 97.22, securing first place and demonstrating its effectiveness in enhancing the trustworthiness of VLM responses.
- Abstract(参考訳): 視覚言語モデル (VLM) は視覚質問応答 (VQA) において有意な可能性を証明している。
しかしながら、幻覚に対するVLMの感受性は、過度に確信されているが誤った答えをもたらし、答えの信頼性を著しく損なう可能性がある。
そこで本稿では, 自己回帰とクロスモデル検証を統合し, 包括的不確実性評価を行う新しいフレームワークである, VLM Reliability (DAVR) のデュアルアセスメントを提案する。
DAVRフレームワークはデュアルパスアーキテクチャを特徴としており、一方の経路はデュアルセレクタモジュールを利用して、VLM潜伏機能とQA埋め込みを融合して応答信頼性を評価する。
ICCV-CLVL 2025の信頼性VQAチャレンジで評価され、DAVRは39.64ドル、100-AUCは97.22ドルを獲得し、第一位を確保し、VLM応答の信頼性を高める効果を示す。
関連論文リスト
- dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - Confidence-guided Refinement Reasoning for Zero-shot Question Answering [19.796455166690187]
C2R(Confidence-guided Refinement Reasoning)は、テキスト、画像、ビデオドメインにわたる質問応答タスクに適用可能な、新しいトレーニングフリーフレームワークである。
C2Rは戦略的にサブクエストとそれらの回答(サブQA)を構築し、洗練し、ターゲットの回答に対してより良い信頼スコアを得る。
論文 参考訳(メタデータ) (2025-09-25T05:15:12Z) - HoliSafe: Holistic Safety Benchmarking and Modeling for Vision-Language Model [58.12612140992874]
我々は、安全で安全でない5つの画像テキストの組み合わせにまたがる、全体的な安全データセットとベンチマークである textbfHoliSafeを紹介した。
また,入力画像の有害性を評価するために,視覚ガードモジュール(VGM)を用いて,VLMの安全性を高めるための新しいモジュラーフレームワークを提案する。
実験により、HoliSafeでトレーニングされたVGMを使用したSafe-VLMは、複数のVLMベンチマークで最先端の安全性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - To Trust Or Not To Trust Your Vision-Language Model's Prediction [32.26134619728882]
我々は,VLMの予測をいつ信頼できるかを推定する課題に対処する,トレーニング不要なフレームワークTrustVLMを紹介した。
観測されたVLMのモダリティギャップに触発されて,この空間を利用して誤分類検出を改善する新しい信頼度スコアリング関数を提案する。
4つのアーキテクチャと2つのVLMを使用して、17の多様なデータセットにまたがるアプローチを厳格に評価し、最先端のパフォーマンスを実証します。
論文 参考訳(メタデータ) (2025-05-29T17:59:01Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。