論文の概要: Intra-Class Probabilistic Embeddings for Uncertainty Estimation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.22019v1
- Date: Thu, 27 Nov 2025 01:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.35206
- Title: Intra-Class Probabilistic Embeddings for Uncertainty Estimation in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける不確かさ推定のためのクラス内確率的埋め込み
- Authors: Zhenxiang Lin, Maryam Haghighat, Will Browne, Dimity Miller,
- Abstract要約: コントラッシブ・ビジョン言語モデルに対するトレーニング不要・ポストホック不確実性推定手法を提案する。
我々の手法はVLM非依存であり、微調整を必要とせず、分散シフトに対する堅牢性を示し、1クラスにつき10のトレーニングイメージで効果的に機能する。
- 参考スコア(独自算出の注目度): 7.5752750293638735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs), such as CLIP, have gained popularity for their strong open vocabulary classification performance, but they are prone to assigning high confidence scores to misclassifications, limiting their reliability in safety-critical applications. We introduce a training-free, post-hoc uncertainty estimation method for contrastive VLMs that can be used to detect erroneous predictions. The key to our approach is to measure visual feature consistency within a class, using feature projection combined with multivariate Gaussians to create class-specific probabilistic embeddings. Our method is VLM-agnostic, requires no fine-tuning, demonstrates robustness to distribution shift, and works effectively with as few as 10 training images per class. Extensive experiments on ImageNet, Flowers102, Food101, EuroSAT and DTD show state-of-the-art error detection performance, significantly outperforming both deterministic and probabilistic VLM baselines. Code is available at https://github.com/zhenxianglin/ICPE.
- Abstract(参考訳): CLIP(英語版)のような視覚言語モデル(VLM)は、強力なオープン語彙分類性能で人気を集めているが、安全クリティカルなアプリケーションにおける信頼性を制限して、高い信頼度スコアを誤分類に割り当てる傾向にある。
本稿では, 誤予測の検出に使用できる対照的なVLMに対して, トレーニング不要, ポストホック不確実性推定手法を提案する。
我々のアプローチの鍵は、多変量ガウスアンと組み合わせてクラス固有の確率的埋め込みを作成することで、クラス内の視覚的特徴の一貫性を測定することである。
我々の手法はVLM非依存であり、微調整を必要とせず、分散シフトに対する堅牢性を示し、1クラスにつき10のトレーニングイメージで効果的に機能する。
ImageNet、Flowers102、Food101、EuroSAT、DTDの大規模な実験は、最先端のエラー検出性能を示し、決定論的および確率的VLMベースラインを著しく上回っている。
コードはhttps://github.com/zhenxianglin/ICPEで入手できる。
関連論文リスト
- OTFusion: Bridging Vision-only and Vision-Language Models via Optimal Transport for Transductive Zero-Shot Learning [5.818420448447699]
OTFusionは、視覚情報と意味情報を整合した共有確率表現を学ぶことを目的としている。
OTFusionはオリジナルのCLIPモデルよりも一貫して優れており、平均精度は10%近く向上している。
論文 参考訳(メタデータ) (2025-06-16T17:27:47Z) - BayesAdapter: enhanced uncertainty estimation in CLIP few-shot adaptation [30.435971066422706]
最先端のCLIPアダプタの識別性能は,その不確実性評価能力と必ずしも相関しないことを示す。
ベイズ推定を利用して1点ではなく全確率分布を推定するベイズアダプタを導入する。
本手法は, キャリブレーションと選択的分類において, 精度の高い不確実性推定値を得る。
論文 参考訳(メタデータ) (2024-12-12T20:48:06Z) - Post-hoc Probabilistic Vision-Language Models [54.05237186168399]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - Active Learning for Vision-Language Models [29.309503214127016]
視覚言語モデル(VLM)のゼロショット分類性能を向上させる新しいアクティブラーニング(AL)フレームワークを提案する。
提案手法はまず, VLMの予測エントロピーを校正し, 自己不確かさと隣接認識の不確実性の組み合わせを用いて, 有効試料選択のための信頼性のある不確実性尺度を算出する。
提案手法は,複数の画像分類データセットにおいて,既存のAL手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T16:25:50Z) - BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models [20.88680592729709]
本稿では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。
BaFTAは、投影された埋め込み空間内のオンラインクラスタリングを使用して、クラスセントロイドを直接推定する。
我々は,BaFTAが最先端の試験時間適応手法を効率と効率の両方で一貫して上回っていることを実証した。
論文 参考訳(メタデータ) (2024-06-17T08:16:24Z) - Uncertainty-aware Sampling for Long-tailed Semi-supervised Learning [89.98353600316285]
擬似ラベルサンプリングのモデル化プロセスに不確実性を導入し、各クラスにおけるモデル性能が異なる訓練段階によって異なることを考慮した。
このアプローチにより、モデルは異なる訓練段階における擬似ラベルの不確かさを認識でき、それによって異なるクラスの選択閾値を適応的に調整できる。
FixMatchのような他の手法と比較して、UDTSは自然シーン画像データセットの精度を少なくとも5.26%、1.75%、9.96%、1.28%向上させる。
論文 参考訳(メタデータ) (2024-01-09T08:59:39Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。