論文の概要: Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation
- arxiv url: http://arxiv.org/abs/2311.08877v1
- Date: Wed, 15 Nov 2023 11:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:24:36.938990
- Title: Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation
- Title(参考訳): LlamasがGPTが示さないものを知る:信頼推定モデル
- Authors: Vaishnavi Shrivastava, Percy Liang, Ananya Kumar
- Abstract要約: 大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
- 参考スコア(独自算出の注目度): 70.27452774899189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To maintain user trust, large language models (LLMs) should signal low
confidence on examples where they are incorrect, instead of misleading the
user. The standard approach of estimating confidence is to use the softmax
probabilities of these models, but as of November 2023, state-of-the-art LLMs
such as GPT-4 and Claude-v1.3 do not provide access to these probabilities. We
first study eliciting confidence linguistically -- asking an LLM for its
confidence in its answer -- which performs reasonably (80.5% AUC on GPT-4
averaged across 12 question-answering datasets -- 7% above a random baseline)
but leaves room for improvement. We then explore using a surrogate confidence
model -- using a model where we do have probabilities to evaluate the original
model's confidence in a given question. Surprisingly, even though these
probabilities come from a different and often weaker model, this method leads
to higher AUC than linguistic confidences on 9 out of 12 datasets. Our best
method composing linguistic confidences and surrogate model probabilities gives
state-of-the-art confidence estimates on all 12 datasets (84.6% average AUC on
GPT-4).
- Abstract(参考訳): ユーザ信頼を維持するために、大きな言語モデル(LLM)は、ユーザを誤解させることなく、それらが正しくない場合の信頼性を低くするべきである。
信頼度を推定する標準的なアプローチは、これらのモデルのソフトマックス確率を使用するが、2023年11月現在、GPT-4やClaude-v1.3のような最先端のLCMはこれらの確率にアクセスできない。
まず、言語学的に信頼度を求める ― 回答に対する信頼度を求める ― GPT-4の80.5% AUCは、12の質問回答データセットの平均値 -- ランダムベースラインより7%高い) を合理的に実行するが、改善の余地は残っていない。次に、元のモデルの信頼度を評価する確率のあるモデルを用いて、代理信頼モデルを用いて検討する。
驚くべきことに、これらの確率は異なる、しばしば弱いモデルから来るが、この方法は12のデータセットのうち9つの言語的信頼度よりも高いAUCをもたらす。
言語的信頼度と代理モデル確率を構成する最良の手法は、全12データセット(GPT-4の平均AUCは84.6%)について最先端の信頼度を推定する。
関連論文リスト
- Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences [62.52739672949452]
言語モデル(LM)は、ユーザーがアウトプットの誤りを検知し、必要であれば人間の専門家に延期するのに役立つ、信頼性の高い信頼推定を提供する必要がある。
本稿では,相対的信頼度推定法を提案する。そこでは,相互に質問をマッチングし,モデルに信頼度を相対的に判断するよう求める。
各質問を、他の質問に対する「プレイヤー」として扱い、モデルの選好を一致結果として扱うことで、モデルの信頼性選好を信頼スコアに変換するために、Elo評価やBradley-Terryのようなランクアグリゲーション手法を使うことができる。
論文 参考訳(メタデータ) (2025-02-03T07:43:27Z) - Confidence Aware Learning for Reliable Face Anti-spoofing [52.23271636362843]
本稿では,その能力境界を意識した信頼認識顔アンチスプーフィングモデルを提案する。
各サンプルの予測中にその信頼性を推定する。
実験の結果,提案したCA-FASは予測精度の低いサンプルを効果的に認識できることがわかった。
論文 参考訳(メタデータ) (2024-11-02T14:29:02Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Large Language Model Confidence Estimation via Black-Box Access [30.490207799344333]
大規模言語モデル(LLM)の応答に対する信頼度をブラックボックスやクエリアクセスで推定する問題について検討する。
そこで我々は,新しい特徴を設計し,その信頼性を推定するために,これらの特徴に対する(解釈可能な)モデル(つまりロジスティック回帰)を訓練する,シンプルで汎用的なフレームワークを提案する。
我々は,Flan-ul2,-13b,Mistral-7b,GPT-4の4つのベンチマークQ&Aタスクおよび2つのベンチマーク要約タスクにおけるPegasus-large,BART-largeの信頼性を推定する上で,我々の単純なフレームワークが有効であることを示す。
論文 参考訳(メタデータ) (2024-06-01T02:08:44Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。
調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。
本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T11:36:12Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Learning Confidence for Transformer-based Neural Machine Translation [38.679505127679846]
本稿では,ニューラルネットワーク翻訳(NMT)モデルのトレーニングと協調して,教師なしの信頼度推定学習を提案する。
我々は、NMTモデルが正しい予測を行うために必要なヒントの数として、信頼性を説明し、より多くのヒントは信頼性の低いことを示す。
学習された信頼度推定は文・単語レベルの品質評価タスクにおいて高い精度が得られることを示す。
論文 参考訳(メタデータ) (2022-03-22T01:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。