論文の概要: An Empirical Study Into What Matters for Calibrating Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2402.07417v1
- Date: Mon, 12 Feb 2024 05:44:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 15:30:48.090485
- Title: An Empirical Study Into What Matters for Calibrating Vision-Language
Models
- Title(参考訳): 視覚・言語モデルの校正に関する実証的研究
- Authors: Weijie Tu, Weijian Deng, Dylan Campbell, Stephen Gould, Tom Gedeon
- Abstract要約: VLM(Vision-Language Models)がゼロショット認識の主流のアプローチとして登場した。
本研究では,異なるアーキテクチャ,データセット,トレーニング戦略にまたがるVLMの校正特性について検討する。
- 参考スコア(独自算出の注目度): 46.62743996788525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision--Language Models (VLMs) have emerged as the dominant approach for
zero-shot recognition, adept at handling diverse scenarios and significant
distribution changes. However, their deployment in risk-sensitive areas
requires a deeper understanding of their uncertainty estimation capabilities, a
relatively uncharted area. In this study, we explore the calibration properties
of VLMs across different architectures, datasets, and training strategies. In
particular, we analyze the uncertainty estimation performance of VLMs when
calibrated in one domain, label set or hierarchy level, and tested in a
different one. Our findings reveal that while VLMs are not inherently
calibrated for uncertainty, temperature scaling significantly and consistently
improves calibration, even across shifts in distribution and changes in label
set. Moreover, VLMs can be calibrated with a very small set of examples.
Through detailed experimentation, we highlight the potential applications and
importance of our insights, aiming for more reliable and effective use of VLMs
in critical, real-world scenarios.
- Abstract(参考訳): VLM(Vision-Language Models)は、ゼロショット認識における主要なアプローチとして登場し、多様なシナリオや大きな分布変化を扱うことに長けている。
しかし、リスクに敏感な分野への展開には、不確実性推定能力の理解が必要とされる。
本研究では,異なるアーキテクチャ,データセット,トレーニング戦略にわたるVLMの校正特性について検討する。
特に,ある領域,ラベルセット,階層レベルで校正された場合のVLMの不確実性推定性能を分析し,異なる領域で検証した。
以上の結果から, VLMは本質的に不確実性に対して校正されていないが, 温度スケーリングは分布の変化やラベルセットの変化によらず, キャリブレーションを著しく改善することがわかった。
さらに、VLMはごく小さな例で校正することができる。
より詳細な実験を通じて、我々は我々の洞察の潜在的な応用と重要性を強調し、批判的で現実的なシナリオにおいてより信頼性が高く効果的なVLMの利用を目指しています。
関連論文リスト
- Influences on LLM Calibration: A Study of Response Agreement, Loss Functions, and Prompt Styles [4.477423478591491]
Calib-nは、信頼度推定のための補助モデルをトレーニングする新しいフレームワークである。
補助的なモデルベース手法では,数発のプロンプトが最も有効であることが判明した。
論文 参考訳(メタデータ) (2025-01-07T18:48:42Z) - Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models [36.81503322875839]
MLLM(Multimodal large language model)は、画像キャプションや視覚的質問応答といったタスクの視覚的データとテキスト的データを組み合わせたモデルである。
本稿では,MLLMの代表例について,様々なシナリオにおけるキャリブレーションに着目して検討する。
その結果, キャリブレーションの相違は認められなかったが, キャリブレーションの相違は認められなかった。
論文 参考訳(メタデータ) (2024-12-19T09:10:07Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Enhancing Healthcare LLM Trust with Atypical Presentations Recalibration [20.049443396032423]
ブラックボックスの大規模言語モデル(LLM)は、様々な環境に徐々に展開されている。
LLMは、しばしば過剰な自信を示し、潜在的なリスクや誤った判断につながる。
本稿では,非定型的なプレゼンテーションを利用してモデルの信頼度を推定する新しい手法であるtextitAtypical presentations Recalibrationを提案する。
論文 参考訳(メタデータ) (2024-09-05T03:45:35Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach [6.209293868095268]
LLMにおける不確実性推定と校正の問題について検討する。
LLMの応答の不確かさを推定するためにラベル付きデータセットを利用する教師付きアプローチを提案する。
本手法は,ブラックボックス,グレイボックス,ホワイトボックスなど,モデルアクセシビリティの異なるレベルに適応し,実装が容易である。
論文 参考訳(メタデータ) (2024-04-24T17:10:35Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。