Fugu-MT 論文翻訳(概要): Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models

論文の概要: Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models

arxiv url: http://arxiv.org/abs/2405.02917v1
Date: Sun, 5 May 2024 12:51:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 17:40:45.857580
Title: Overconfidence is Key: Verbalized Uncertainty Evaluation in Large Language and Vision-Language Models
Title（参考訳）: 過信が鍵となる:大規模言語と視覚言語モデルにおける言語的不確実性評価
Authors: Tobias Groot, Matias Valdenegro-Toro,
Abstract要約: 言語と視覚言語モデル(LLMs/VLMs)は、人間のようなテキストを生成し、画像を理解する能力によってAIの分野に革命をもたらしたが、信頼性の確保は不可欠である。本稿では,LLM (GPT4, GPT-3.5, LLaMA2, PaLM2) と VLM (GPT4V, Gemini Pro Vision) の言語的不確実性を評価することを目的とした。本稿では,難解なクエリやオブジェクトカウントによるVLM機能テストを目的とした日本語不確実シーンデータセットと,誤校正の方向を測定するNet Errorデータセットを提案する。
参考スコア（独自算出の注目度）: 6.9060054915724
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Language and Vision-Language Models (LLMs/VLMs) have revolutionized the field of AI by their ability to generate human-like text and understand images, but ensuring their reliability is crucial. This paper aims to evaluate the ability of LLMs (GPT4, GPT-3.5, LLaMA2, and PaLM 2) and VLMs (GPT4V and Gemini Pro Vision) to estimate their verbalized uncertainty via prompting. We propose the new Japanese Uncertain Scenes (JUS) dataset, aimed at testing VLM capabilities via difficult queries and object counting, and the Net Calibration Error (NCE) to measure direction of miscalibration. Results show that both LLMs and VLMs have a high calibration error and are overconfident most of the time, indicating a poor capability for uncertainty estimation. Additionally we develop prompts for regression tasks, and we show that VLMs have poor calibration when producing mean/standard deviation and 95% confidence intervals.
Abstract（参考訳）: 言語と視覚言語モデル(LLMs/VLMs)は、人間のようなテキストを生成し、画像を理解する能力によってAIの分野に革命をもたらしたが、信頼性の確保は不可欠である。本稿では,LLM (GPT4, GPT-3.5, LLaMA2, PaLM2) と VLM (GPT4V, Gemini Pro Vision) の言語的不確実性を評価することを目的とした。本稿では,難解なクエリやオブジェクトカウントによるVLM機能テストを目的とした日本語不確定シーン(JUS)データセットと,誤校正の方向を測定するNet Calibration Error(NCE)を提案する。その結果, LLM と VLM は高い校正誤差を有し, 多くの場合, 過度に信頼されていることが判明し, 不確実性推定能力の低下が示唆された。さらに、回帰タスクのプロンプトを開発し、平均/標準偏差と95%の信頼区間を生成する場合、VLMはキャリブレーションが不十分であることを示す。

関連論文リスト

Investigating the Multilingual Calibration Effects of Language Model Instruction-Tuning [58.355275813623685]
本研究は,多言語設定における大規模言語モデル(LLM)の校正における重要なギャップについて考察する。低リソース言語であっても、高リソース言語SFTデータセットのインストラクションチューニング後にモデルの信頼性が著しく向上する可能性がある。しかし、精度の改善は限界的あるいは存在しないものであり、多言語言語における標準SFTの重大な欠点を浮き彫りにしている。
論文参考訳（メタデータ） (2026-01-04T04:29:12Z)
Can Large Language Models Express Uncertainty Like Human? [71.27418419522884]
我々は,人間に注釈を付けた信頼スコアを持つヘッジ式の最初の多種多様な大規模データセットをリリースする。現代大言語モデルにまたがる言語信頼に関する最初の体系的研究を行う。
論文参考訳（メタデータ） (2025-09-29T02:34:30Z)
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs [35.6424858476337]
メタファイト(MetaFaith)は、ヒトのメタ認知に触発された新規なプロンプトベースのキャリブレーション手法である。 MetaFaithは多種多様なモデルやタスク領域における忠実なキャリブレーションを強力に改善し、忠実度を最大61%向上させることができることを示す。
論文参考訳（メタデータ） (2025-05-30T17:54:08Z)
To Trust Or Not To Trust Your Vision-Language Model's Prediction [37.90196640800147]
我々は,VLMの予測をいつ信頼できるかを推定する課題に対処する,トレーニング不要なフレームワークTrustVLMを紹介した。観測されたVLMのモダリティギャップに触発されて,この空間を利用して誤分類検出を改善する新しい信頼度スコアリング関数を提案する。 4つのアーキテクチャと2つのVLMを使用して、17の多様なデータセットにまたがるアプローチを厳格に評価し、最先端のパフォーマンスを実証します。
論文参考訳（メタデータ） (2025-05-29T17:59:01Z)
Seeing is Believing, but How Much? A Comprehensive Analysis of Verbalized Calibration in Vision-Language Models [15.158475816860427]
不確実性は、現代のAIシステムの信頼性と信頼性を評価するために不可欠である。モデルが自然言語を通して信頼を表現する言語化された不確実性は、軽量で解釈可能なソリューションとして現れています。しかし、視覚言語モデル(VLM)におけるその効果は未だ十分に研究されていない。
論文参考訳（メタデータ） (2025-05-26T17:16:36Z)
Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception [58.62352010928591]
大きな言語モデル(LLM)は様々なタスクにまたがって優れたパフォーマンスを示すが、しばしば知識境界を正確に測定するのに苦労する。本稿では,LLMの内部状態を有効利用して,効率性やリスクの観点から知識境界に対する認識を高める方法について検討する。
論文参考訳（メタデータ） (2025-02-17T11:11:09Z)
Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-12-23T13:05:51Z)
Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models [36.81503322875839]
MLLM(Multimodal large language model)は、画像キャプションや視覚的質問応答といったタスクの視覚的データとテキスト的データを組み合わせたモデルである。本稿では,MLLMの代表例について,様々なシナリオにおけるキャリブレーションに着目して検討する。その結果, キャリブレーションの相違は認められなかったが, キャリブレーションの相違は認められなかった。
論文参考訳（メタデータ） (2024-12-19T09:10:07Z)
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文参考訳（メタデータ） (2024-07-15T23:41:11Z)
Calibrating Large Language Models Using Their Generations Only [44.26441565763495]
APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
論文参考訳（メタデータ） (2024-03-09T17:46:24Z)
Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。 FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文参考訳（メタデータ） (2024-02-27T01:37:23Z)
Uncertainty-Aware Evaluation for Vision-Language Models [0.0]
現在の評価手法は重要な要素である不確実性を見落としている。精度の高いモデルも高い不確実性を持つ可能性があることを示す。また, 実験結果から, モデルの不確かさと言語モデル部分との相関が明らかとなった。
論文参考訳（メタデータ） (2024-02-22T10:04:17Z)
Don't Go To Extremes: Revealing the Excessive Sensitivity and Calibration Limitations of LLMs in Implicit Hate Speech Detection [29.138463029748547]
本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。 1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
論文参考訳（メタデータ） (2024-02-18T00:04:40Z)
The Calibration Gap between Model and Human Confidence in Large Language Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文参考訳（メタデータ） (2024-01-24T22:21:04Z)
Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文参考訳（メタデータ） (2024-01-23T14:29:17Z)
A Survey of Confidence Estimation and Calibration in Large Language Models [86.692994151323]
大規模言語モデル(LLM)は、様々な領域において幅広いタスクにまたがる顕著な機能を示している。印象的なパフォーマンスにもかかわらず、彼らは世代内の事実上の誤りのために信頼できない。信頼度を評価し、異なるタスクで調整することで、リスクを軽減し、LLMがより良い世代を創出できるようになります。
論文参考訳（メタデータ） (2023-11-14T16:43:29Z)
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve [21.55766758950951]
我々は、単語予測タスクを解決するために、大規模言語モデルが採用する戦略について予測する。 11 つのタスクで 2 つの LLM を評価し,LLM が確率の影響を受けていることを示す。我々は、LSMをまるで人間であるかのように評価するのではなく、異なるタイプのシステムとして扱うべきだと結論付けている。
論文参考訳（メタデータ） (2023-09-24T13:35:28Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文参考訳（メタデータ） (2023-06-22T17:31:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。