論文の概要: To Trust Or Not To Trust Your Vision-Language Model's Prediction
- arxiv url: http://arxiv.org/abs/2505.23745v1
- Date: Thu, 29 May 2025 17:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.076116
- Title: To Trust Or Not To Trust Your Vision-Language Model's Prediction
- Title(参考訳): ビジョンランゲージモデルの予測を信頼するか、信用しないか
- Authors: Hao Dong, Moru Liu, Jian Liang, Eleni Chatzi, Olga Fink,
- Abstract要約: 我々は,VLMの予測をいつ信頼できるかを推定する課題に対処する,トレーニング不要なフレームワークTrustVLMを紹介した。
観測されたVLMのモダリティギャップに触発されて,この空間を利用して誤分類検出を改善する新しい信頼度スコアリング関数を提案する。
4つのアーキテクチャと2つのVLMを使用して、17の多様なデータセットにまたがるアプローチを厳格に評価し、最先端のパフォーマンスを実証します。
- 参考スコア(独自算出の注目度): 37.90196640800147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated strong capabilities in aligning visual and textual modalities, enabling a wide range of applications in multimodal understanding and generation. While they excel in zero-shot and transfer learning scenarios, VLMs remain susceptible to misclassification, often yielding confident yet incorrect predictions. This limitation poses a significant risk in safety-critical domains, where erroneous predictions can lead to severe consequences. In this work, we introduce TrustVLM, a training-free framework designed to address the critical challenge of estimating when VLM's predictions can be trusted. Motivated by the observed modality gap in VLMs and the insight that certain concepts are more distinctly represented in the image embedding space, we propose a novel confidence-scoring function that leverages this space to improve misclassification detection. We rigorously evaluate our approach across 17 diverse datasets, employing 4 architectures and 2 VLMs, and demonstrate state-of-the-art performance, with improvements of up to 51.87% in AURC, 9.14% in AUROC, and 32.42% in FPR95 compared to existing baselines. By improving the reliability of the model without requiring retraining, TrustVLM paves the way for safer deployment of VLMs in real-world applications. The code will be available at https://github.com/EPFL-IMOS/TrustVLM.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚とテキストのモダリティの整合性を強く示しており、マルチモーダル理解と生成における幅広い応用を可能にしている。
ゼロショットやトランスファー学習のシナリオでは優れているが、VLMはいまだに誤分類の影響を受けやすく、しばしば自信を持って不正確な予測をもたらす。
この制限は、誤った予測が重大な結果をもたらす、安全クリティカルな領域において重大なリスクをもたらす。
本稿では,VLMの予測を信頼できる時期を推定する上で重要な課題に対処するためのトレーニングフリーフレームワークであるTrustVLMを紹介する。
VLMの観察されたモダリティギャップと、画像埋め込み空間において特定の概念がより明確に表現されているという知見に触発され、この空間を利用して誤分類検出を改善する新しい信頼スコア関数を提案する。
AURCは最大51.87%、AUROCは9.14%、FPR95は既存のベースラインに比べて32.42%改善した。
再トレーニングを必要とせずにモデルの信頼性を向上させることで、TrustVLMは、現実のアプリケーションにVLMを安全にデプロイする方法を開拓する。
コードはhttps://github.com/EPFL-IMOS/TrustVLMで入手できる。
関連論文リスト
- Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。
モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。
しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文 参考訳(メタデータ) (2025-05-26T17:16:36Z) - Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。
この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。
本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文 参考訳(メタデータ) (2025-04-21T04:01:22Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - Test-Time Fairness and Robustness in Large Language Models [17.758735680493917]
Frontier Large Language Models (LLM) は、社会的に差別的であるか、その入力の刺激的な特徴に敏感である。
既存のソリューションは、LLMに公正か堅牢かを指示し、モデルのバイアスに対する暗黙の理解に依存します。
暗黙的な指示とは異なり、我々のプロンプト戦略は、フロンティアLSMのバイアスを一貫して減少させることを示す。
論文 参考訳(メタデータ) (2024-06-11T20:05:15Z) - Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models [6.9060054915724]
言語と視覚言語モデル(LLMs/VLMs)は、人間のようなテキストを生成し、画像を理解する能力によってAIの分野に革命をもたらしたが、信頼性の確保は不可欠である。
本稿では,LLM (GPT4, GPT-3.5, LLaMA2, PaLM2) と VLM (GPT4V, Gemini Pro Vision) の言語的不確実性を評価することを目的とした。
本稿では,難解なクエリやオブジェクトカウントによるVLM機能テストを目的とした日本語不確実シーンデータセットと,誤校正の方向を測定するNet Errorデータセットを提案する。
論文 参考訳(メタデータ) (2024-05-05T12:51:38Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。