論文の概要: LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.21028v1
- Date: Fri, 31 May 2024 17:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 13:29:24.327908
- Title: LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models
- Title(参考訳): LACIE:大規模言語モデルにおける信頼度校正のためのリスナー認識ファインタニング
- Authors: Elias Stengel-Eskin, Peter Hase, Mohit Bansal,
- Abstract要約: 暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。
我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。
LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
- 参考スコア(独自算出の注目度): 69.68379406317682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When answering questions, LLMs can convey not only an answer, but a level of confidence about the answer being correct. This includes explicit confidence markers (e.g. giving a numeric score) as well as implicit markers, like an authoritative tone or elaborating with additional knowledge. For LLMs to be trustworthy knowledge sources, the confidence they convey should match their actual expertise; however, most current models tend towards overconfidence. To calibrate both implicit and explicit confidence markers, we introduce a pragmatic, listener-aware finetuning method (LACIE) that models the listener, considering not only whether an answer is right, but whether it will be accepted by a listener. We cast calibration as preference optimization, creating data via a two-agent game, where a speaker model's outputs are judged by a simulated listener. We then finetune three LLMs (Mistral-7B, Llama3-8B, Llama3-70B) with LACIE, and show that the resulting models are better calibrated w.r.t. a simulated listener. Crucially, these trends transfer to human listeners, helping them correctly predict model correctness: we conduct a human evaluation where annotators accept or reject an LLM's answers, finding that training with LACIE results in 47% fewer incorrect answers being accepted while maintaining the same level of acceptance for correct answers. Furthermore, LACIE generalizes to another dataset, resulting in a large increase in truthfulness on TruthfulQA when trained on TriviaQA. Our analysis indicates that LACIE leads to a better confidence separation between correct and incorrect examples. Qualitatively, we find that a LACIE-trained model hedges more and implicitly signals certainty when it is correct by using an authoritative tone or including details. Finally, LACIE finetuning leads to an emergent increase in model abstention (e.g. saying "I don't know") for answers that are likely wrong.
- Abstract(参考訳): 質問に答えるとき、LLMは答えだけでなく、答えが正しいという自信のレベルを伝えることができる。
これには、明示的な信頼マーカー(例えば、数値スコアを与える)や、権威的なトーンや追加の知識による実験のような暗黙のマーカーが含まれる。
LLMが信頼できる知識ソースであるためには、彼らが伝える自信は実際の専門知識と一致すべきである。
暗黙的および明示的な信頼マーカーを校正するために,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考慮し,リスナーをモデル化する実用的で聞き手対応の微調整手法(LACIE)を導入する。
我々は、キャリブレーションを好みの最適化としてキャストし、2エージェントゲームを通してデータを生成し、そこでは、話者モデルの出力を模擬リスナによって判断する。
次に、LCM(Mistral-7B, Llama3-8B, Llama3-70B)をLACIEで微調整し、シミュレーションリスナの校正精度が向上したことを示す。
重要なことに、これらの傾向は人間のリスナーに伝達され、モデル正当性を正確に予測するのに役立つ:我々は、注釈者がLCMの回答を受け入れたり拒否したりする人間の評価を行う。
さらに、LACIEは別のデータセットに一般化し、TriviaQAでトレーニングされたときに、TrathfulQAの真偽が大幅に増加する。
我々の分析は、LACIEが正しい例と間違った例とをより良い信頼性で分離することを示唆している。
定性的には、LACIEで訓練されたモデルが、権威音を用いて、あるいは詳細を含むことによって、それが正しいときに、より暗黙的に確実性を示すことが分かる。
最後に、LACIEの微調整は、おそらく間違っている答えに対するモデル棄権(例:"I don't know")の急激な増加につながる。
関連論文リスト
- Factual Confidence of LLMs: on Reliability and Robustness of Current Estimators [6.403926452181712]
大規模言語モデル(LLM)は、その答えの事実において信頼できない傾向にある。
本稿では,事実信頼度の推定者の調査と実証的比較について述べる。
実験により, 訓練された隠れ状態プローブが最も信頼性の高い信頼度を推定できることが示唆された。
論文 参考訳(メタデータ) (2024-06-19T10:11:37Z) - SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。
さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:21:16Z) - Calibrating Large Language Models Using Their Generations Only [44.26441565763495]
APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。
概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。
閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
論文 参考訳(メタデータ) (2024-03-09T17:46:24Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - Quantifying Uncertainty in Answers from any Language Model and Enhancing
their Trustworthiness [16.35655151252159]
本稿では,事前訓練された大規模言語モデルから悪い,投機的な回答を検出するBSDetectorを紹介する。
我々の不確実性定量化技術は,ブラックボックスAPIを通じてのみアクセス可能な LLM に対して有効である。
論文 参考訳(メタデータ) (2023-08-30T17:53:25Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。