Fugu-MT 論文翻訳(概要): An Empirical Study Into What Matters for Calibrating Vision-Language Models

論文の概要: An Empirical Study Into What Matters for Calibrating Vision-Language Models

arxiv url: http://arxiv.org/abs/2402.07417v2
Date: Fri, 14 Jun 2024 11:40:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 19:14:16.707859
Title: An Empirical Study Into What Matters for Calibrating Vision-Language Models
Title（参考訳）: 視覚・言語モデルの校正に関する実証的研究
Authors: Weijie Tu, Weijian Deng, Dylan Campbell, Stephen Gould, Tom Gedeon,
Abstract要約: VLM(Vision-Language Models)がゼロショット認識の主流のアプローチとして登場した。本研究では,異なるアーキテクチャ,データセット,トレーニング戦略にまたがるVLMの校正特性について検討する。
参考スコア（独自算出の注目度）: 43.46144923146323
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Models (VLMs) have emerged as the dominant approach for zero-shot recognition, adept at handling diverse scenarios and significant distribution changes. However, their deployment in risk-sensitive areas requires a deeper understanding of their uncertainty estimation capabilities, a relatively uncharted area. In this study, we explore the calibration properties of VLMs across different architectures, datasets, and training strategies. In particular, we analyze the uncertainty estimation performance of VLMs when calibrated in one domain, label set or hierarchy level, and tested in a different one. Our findings reveal that while VLMs are not inherently calibrated for uncertainty, temperature scaling significantly and consistently improves calibration, even across shifts in distribution and changes in label set. Moreover, VLMs can be calibrated with a very small set of examples. Through detailed experimentation, we highlight the potential applications and importance of our insights, aiming for more reliable and effective use of VLMs in critical, real-world scenarios.
Abstract（参考訳）: VLM(Vision-Language Models)は、ゼロショット認識における主要なアプローチとして登場し、多様なシナリオや大きな分布変化を扱うことに長けている。しかし、リスクに敏感な分野への展開には、その不確実性推定能力、比較的未知の領域を深く理解する必要がある。本研究では,異なるアーキテクチャ,データセット,トレーニング戦略にまたがるVLMの校正特性について検討する。特に,ある領域,ラベルセット,階層レベルで校正された場合のVLMの不確実性推定性能を分析し,異なる領域で検証した。以上の結果から, VLMは本質的に不確実性に対して校正されていないが, 温度スケーリングは分布の変化やラベルセットの変化によらず, キャリブレーションを著しく改善することがわかった。さらに、VLMはごく小さな例で校正することができる。より詳細な実験を通じて、我々は我々の洞察の潜在的な応用と重要性を強調し、批判的で現実的なシナリオにおいてより信頼性が高く効果的なVLMの利用を目指しています。

関連論文リスト

Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文参考訳（メタデータ） (2025-05-26T17:16:36Z)
Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文参考訳（メタデータ） (2025-04-21T04:01:22Z)
Influences on LLM Calibration: A Study of Response Agreement, Loss Functions, and Prompt Styles [4.477423478591491]
Calib-nは、信頼度推定のための補助モデルをトレーニングする新しいフレームワークである。補助的なモデルベース手法では,数発のプロンプトが最も有効であることが判明した。
論文参考訳（メタデータ） (2025-01-07T18:48:42Z)
Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models [36.81503322875839]
MLLM(Multimodal large language model)は、画像キャプションや視覚的質問応答といったタスクの視覚的データとテキスト的データを組み合わせたモデルである。本稿では,MLLMの代表例について,様々なシナリオにおけるキャリブレーションに着目して検討する。その結果, キャリブレーションの相違は認められなかったが, キャリブレーションの相違は認められなかった。
論文参考訳（メタデータ） (2024-12-19T09:10:07Z)
Post-hoc Probabilistic Vision-Language Models [51.12284891724463]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文参考訳（メタデータ） (2024-12-08T18:16:13Z)
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文参考訳（メタデータ） (2024-10-03T17:53:30Z)
Enhancing Healthcare LLM Trust with Atypical Presentations Recalibration [20.049443396032423]
ブラックボックスの大規模言語モデル(LLM)は、様々な環境に徐々に展開されている。 LLMは、しばしば過剰な自信を示し、潜在的なリスクや誤った判断につながる。本稿では,非定型的なプレゼンテーションを利用してモデルの信頼度を推定する新しい手法であるtextitAtypical presentations Recalibrationを提案する。
論文参考訳（メタデータ） (2024-09-05T03:45:35Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models [6.9060054915724]
言語と視覚言語モデル(LLMs/VLMs)は、人間のようなテキストを生成し、画像を理解する能力によってAIの分野に革命をもたらしたが、信頼性の確保は不可欠である。本稿では,LLM (GPT4, GPT-3.5, LLaMA2, PaLM2) と VLM (GPT4V, Gemini Pro Vision) の言語的不確実性を評価することを目的とした。本稿では,難解なクエリやオブジェクトカウントによるVLM機能テストを目的とした日本語不確実シーンデータセットと,誤校正の方向を測定するNet Errorデータセットを提案する。
論文参考訳（メタデータ） (2024-05-05T12:51:38Z)
Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach [6.209293868095268]
LLMにおける不確実性推定と校正の問題について検討する。 LLMの応答の不確かさを推定するためにラベル付きデータセットを利用する教師付きアプローチを提案する。本手法は,ブラックボックス,グレイボックス,ホワイトボックスなど,モデルアクセシビリティの異なるレベルに適応し,実装が容易である。
論文参考訳（メタデータ） (2024-04-24T17:10:35Z)
Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-02-21T16:15:20Z)
On Task Performance and Model Calibration with Supervised and Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文参考訳（メタデータ） (2023-12-21T11:55:10Z)
A Review of Uncertainty Calibration in Pretrained Object Detectors [5.440028715314566]
多クラス設定における事前訓練対象検出アーキテクチャの不確実性校正特性について検討する。公平でバイアスのない,繰り返し可能な評価を実現するためのフレームワークを提案する。検出器のキャリブレーションが低い理由について、新しい知見を提供する。
論文参考訳（メタデータ） (2022-10-06T14:06:36Z)
Learning Calibrated Uncertainties for Domain Shift: A Distributionally Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。提案手法は下流タスクに有利な校正不確実性を生成する。
論文参考訳（メタデータ） (2020-10-08T02:10:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。