論文の概要: Know What You do Not Know: Verbalized Uncertainty Estimation Robustness on Corrupted Images in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2504.03440v1
- Date: Fri, 04 Apr 2025 13:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:01.802029
- Title: Know What You do Not Know: Verbalized Uncertainty Estimation Robustness on Corrupted Images in Vision-Language Models
- Title(参考訳): あなたが知らないことを知る:視覚・言語モデルにおける破壊画像のバーバル化不確かさ推定ロバスト性
- Authors: Mirko Borszukovszki, Ivo Pascal de Jong, Matias Valdenegro-Toro,
- Abstract要約: 悪い不確実性の推定は、言語モデルに対する信頼を損なう誤った答えを過度に確信させる可能性がある。
画像データから最先端の3つのビジュアル言語モデルを検証した。
汚職の深刻さはモデルの不確実性を推定する能力に悪影響を及ぼすことがわかった。
- 参考スコア(独自算出の注目度): 6.144680854063938
- License:
- Abstract: To leverage the full potential of Large Language Models (LLMs) it is crucial to have some information on their answers' uncertainty. This means that the model has to be able to quantify how certain it is in the correctness of a given response. Bad uncertainty estimates can lead to overconfident wrong answers undermining trust in these models. Quite a lot of research has been done on language models that work with text inputs and provide text outputs. Still, since the visual capabilities have been added to these models recently, there has not been much progress on the uncertainty of Visual Language Models (VLMs). We tested three state-of-the-art VLMs on corrupted image data. We found that the severity of the corruption negatively impacted the models' ability to estimate their uncertainty and the models also showed overconfidence in most of the experiments.
- Abstract(参考訳): LLM(Large Language Models)の潜在能力を最大限に活用するためには、その答えの不確実性に関する情報を得ることが不可欠である。
これは、モデルが与えられた応答の正しさにあるかどうかを定量化する必要があることを意味する。
悪い不確実性推定は、これらのモデルに対する信頼を損なう誤った答えを過度に確信させる可能性がある。
テキスト入力とテキスト出力を提供する言語モデルについて、非常に多くの研究がなされている。
しかし、最近これらのモデルに視覚機能が追加されたため、ビジュアル言語モデル(VLM)の不確実性はあまり進展していない。
劣化画像データを用いて3つの最先端VLMを検証した。
その結果, 破損の重大さがモデルの不確実性を推定する能力に悪影響を及ぼし, 実験の大部分においてモデルが過度に自信を持つことが判明した。
関連論文リスト
- Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - An Assessment of Model-On-Model Deception [0.0]
Llama-2 7B, 13B, 70B, および GPT-3.5 を用いて, MMLU の質問に対する誤った回答を正当化することにより, 1万以上の誤解を招く説明のデータセットを作成する。
さらに悪いことに、すべての能力のモデルは他人を誤解させるのに成功しており、より有能なモデルは詐欺に抵抗するのにわずかに優れている。
論文 参考訳(メタデータ) (2024-05-10T23:24:18Z) - Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。
調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。
本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T11:36:12Z) - Uncertainty-Aware Evaluation for Vision-Language Models [0.0]
現在の評価手法は重要な要素である不確実性を見落としている。
精度の高いモデルも高い不確実性を持つ可能性があることを示す。
また, 実験結果から, モデルの不確かさと言語モデル部分との相関が明らかとなった。
論文 参考訳(メタデータ) (2024-02-22T10:04:17Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Trusting Language Models in Education [1.2578554943276923]
本稿では,BERT 上の XGBoost を用いて補正された確率を出力することを提案する。
我々の仮説は、注意の流れに含まれる不確実性のレベルは、モデルの応答自体の品質に関係している、というものである。
論文 参考訳(メタデータ) (2023-08-07T18:27:54Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。