論文の概要: Calibrating Large Language Models Using Their Generations Only
- arxiv url: http://arxiv.org/abs/2403.05973v1
- Date: Sat, 9 Mar 2024 17:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:31:03.923011
- Title: Calibrating Large Language Models Using Their Generations Only
- Title(参考訳): 世代のみを用いた大規模言語モデルの校正
- Authors: Dennis Ulmer, Martin Gubri, Hwaran Lee, Sangdoo Yun, Seong Joon Oh
- Abstract要約: APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。
概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。
閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
- 参考スコア(独自算出の注目度): 44.26441565763495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed in user-facing
applications, building trust and maintaining safety by accurately quantifying a
model's confidence in its prediction becomes even more important. However,
finding effective ways to calibrate LLMs - especially when the only interface
to the models is their generated text - remains a challenge. We propose APRICOT
(auxiliary prediction of confidence targets): A method to set confidence
targets and train an additional model that predicts an LLM's confidence based
on its textual input and output alone. This approach has several advantages: It
is conceptually simple, does not require access to the target model beyond its
output, does not interfere with the language generation, and has a multitude of
potential usages, for instance by verbalizing the predicted confidence or
adjusting the given answer based on the confidence. We show how our approach
performs competitively in terms of calibration error for white-box and
black-box LLMs on closed-book question-answering to detect incorrect LLM
answers.
- Abstract(参考訳): 大きな言語モデル(LLM)がユーザ向けアプリケーションにますますデプロイされるにつれて、モデルの予測に対する信頼性を正確に定量化することによって、信頼性の構築と安全性の維持がさらに重要になる。
しかしながら、LCM(特にモデルへの唯一のインターフェースが生成されたテキストである場合)を効果的に校正する方法を見つけることは、依然として課題である。
apricot (auxiliary prediction of confidence targets): 信頼度目標を設定し、テキスト入力と出力のみに基づいてllmの信頼度を予測する追加モデルをトレーニングする手法。
概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、例えば、予測された自信を言語化したり、信頼に基づいて与えられた回答を調整することで、潜在的に多用されている。
閉書質問応答における白箱と黒箱のLCMの校正誤差から,提案手法の競合性を示す。
関連論文リスト
- On Calibration of LLM-based Guard Models for Reliable Content Moderation [27.611237252584402]
大規模言語モデル(LLM)は、有害なコンテンツを生成する可能性や、ガードレールを避けようとするユーザによって、重大なリスクを負う。
既存の研究では、脅威LSMの入力と出力を適度にするためのLLMベースのガードモデルが開発されている。
しかし、これらのガードモデルの信頼性と校正には限定的な注意が払われている。
論文 参考訳(メタデータ) (2024-10-14T12:04:06Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。
さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:21:16Z) - SPOT: Text Source Prediction from Originality Score Thresholding [6.790905400046194]
対策は誤報を検出することを目的としており、通常、あらゆる情報の関連性を認識するために訓練されたドメイン固有モデルを含む。
情報の有効性を評価する代わりに,信頼の観点からLLM生成テキストを調べることを提案する。
論文 参考訳(メタデータ) (2024-05-30T21:51:01Z) - Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。
調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。
本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T11:36:12Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。
その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。