論文の概要: Intra-Class Probabilistic Embeddings for Uncertainty Estimation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.22019v1
- Date: Thu, 27 Nov 2025 01:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.35206
- Title: Intra-Class Probabilistic Embeddings for Uncertainty Estimation in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける不確かさ推定のためのクラス内確率的埋め込み
- Authors: Zhenxiang Lin, Maryam Haghighat, Will Browne, Dimity Miller,
- Abstract要約: コントラッシブ・ビジョン言語モデルに対するトレーニング不要・ポストホック不確実性推定手法を提案する。
我々の手法はVLM非依存であり、微調整を必要とせず、分散シフトに対する堅牢性を示し、1クラスにつき10のトレーニングイメージで効果的に機能する。
- 参考スコア(独自算出の注目度): 7.5752750293638735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs), such as CLIP, have gained popularity for their strong open vocabulary classification performance, but they are prone to assigning high confidence scores to misclassifications, limiting their reliability in safety-critical applications. We introduce a training-free, post-hoc uncertainty estimation method for contrastive VLMs that can be used to detect erroneous predictions. The key to our approach is to measure visual feature consistency within a class, using feature projection combined with multivariate Gaussians to create class-specific probabilistic embeddings. Our method is VLM-agnostic, requires no fine-tuning, demonstrates robustness to distribution shift, and works effectively with as few as 10 training images per class. Extensive experiments on ImageNet, Flowers102, Food101, EuroSAT and DTD show state-of-the-art error detection performance, significantly outperforming both deterministic and probabilistic VLM baselines. Code is available at https://github.com/zhenxianglin/ICPE.
- Abstract(参考訳): CLIP(英語版)のような視覚言語モデル(VLM)は、強力なオープン語彙分類性能で人気を集めているが、安全クリティカルなアプリケーションにおける信頼性を制限して、高い信頼度スコアを誤分類に割り当てる傾向にある。
本稿では, 誤予測の検出に使用できる対照的なVLMに対して, トレーニング不要, ポストホック不確実性推定手法を提案する。
我々のアプローチの鍵は、多変量ガウスアンと組み合わせてクラス固有の確率的埋め込みを作成することで、クラス内の視覚的特徴の一貫性を測定することである。
我々の手法はVLM非依存であり、微調整を必要とせず、分散シフトに対する堅牢性を示し、1クラスにつき10のトレーニングイメージで効果的に機能する。
ImageNet、Flowers102、Food101、EuroSAT、DTDの大規模な実験は、最先端のエラー検出性能を示し、決定論的および確率的VLMベースラインを著しく上回っている。
コードはhttps://github.com/zhenxianglin/ICPEで入手できる。
関連論文リスト
- Post-hoc Probabilistic Vision-Language Models [54.05237186168399]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - Active Learning for Vision-Language Models [29.309503214127016]
視覚言語モデル(VLM)のゼロショット分類性能を向上させる新しいアクティブラーニング(AL)フレームワークを提案する。
提案手法はまず, VLMの予測エントロピーを校正し, 自己不確かさと隣接認識の不確実性の組み合わせを用いて, 有効試料選択のための信頼性のある不確実性尺度を算出する。
提案手法は,複数の画像分類データセットにおいて,既存のAL手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T16:25:50Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。