論文の概要: SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales
- arxiv url: http://arxiv.org/abs/2405.20974v3
- Date: Fri, 04 Oct 2024 17:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:32.451654
- Title: SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales
- Title(参考訳): SaySelf: LLMに自己表現的合理化による信頼の表現を教える
- Authors: Tianyang Xu, Shujin Wu, Shizhe Diao, Xiaoze Liu, Xingyao Wang, Yangyi Chen, Jing Gao,
- Abstract要約: SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。
さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
- 参考スコア(独自算出の注目度): 29.33581578047835
- License:
- Abstract: Large language models (LLMs) often generate inaccurate or fabricated information and generally fail to indicate their confidence, which limits their broader applications. Previous work elicits confidence from LLMs by direct or self-consistency prompting, or constructing specific datasets for supervised finetuning. The prompting-based approaches have inferior performance, and the training-based approaches are limited to binary or inaccurate group-level confidence estimates. In this work, we present the advanced SaySelf, a training framework that teaches LLMs to express more accurate fine-grained confidence estimates. In addition, beyond the confidence scores, SaySelf initiates the process of directing LLMs to produce self-reflective rationales that clearly identify gaps in their parametric knowledge and explain their uncertainty. This is achieved by using an LLM to automatically summarize the uncertainties in specific knowledge via natural language. The summarization is based on the analysis of the inconsistency in multiple sampled reasoning chains, and the resulting data is utilized for supervised fine-tuning. Moreover, we utilize reinforcement learning with a meticulously crafted reward function to calibrate the confidence estimates, motivating LLMs to deliver accurate, high-confidence predictions and to penalize overconfidence in erroneous outputs. Experimental results in both in-distribution and out-of-distribution datasets demonstrate the effectiveness of SaySelf in reducing the confidence calibration error and maintaining the task performance. We show that the generated self-reflective rationales are reasonable and can further contribute to the calibration. The code is made public at https://github.com/xu1868/SaySelf.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば不正確な情報や製造された情報を生成し、一般にその信頼性を示すのに失敗し、より広範なアプリケーションを制限する。
従来の作業は、直接的または自己整合性のプロンプトや、教師付き微調整のための特定のデータセットの構築によって、LSMからの信頼を引き出す。
プロンプトベースのアプローチは性能が劣り、トレーニングベースのアプローチは2値または不正確なグループレベルの信頼推定に限られる。
本研究では,より高精度な信頼度推定をLLMに教える学習フレームワークであるSaySelfを紹介する。
さらに、自信のスコアを超えて、SaySelf は LLM に自己反射的合理性を生み出すよう指示するプロセスを開始し、パラメトリックな知識のギャップを明確に識別し、不確実性を説明する。
これは、LLMを使用して、自然言語を介して特定の知識の不確実性を自動的に要約することで達成される。
要約は、複数のサンプル推論鎖の不整合の解析に基づいており、その結果データを教師付き微調整に利用する。
さらに、精度の高い報酬関数を用いた強化学習を活用し、信頼度推定を校正し、LCMを高精度で高信頼な予測を行い、誤出力における過信を罰する動機付けを行う。
その結果,SaySelfの信頼性校正誤差の低減とタスク性能の維持に効果が示された。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
コードはhttps://github.com/xu1868/SaySelf.comで公開されている。
関連論文リスト
- Learning to Route with Confidence Tokens [43.63392143501436]
大規模言語モデルが回答の信頼性を確実に示すことができる範囲について検討する。
本稿では,LLMの信頼性を確実に表現するための軽量トレーニング戦略であるSelf-REFを提案する。
信頼度を言語化したり、トークンの確率を調べるといった従来の手法と比較して、信頼度トークンは下流のルーティングや拒否学習タスクにおいて著しく改善されていることを実証的に示す。
論文 参考訳(メタデータ) (2024-10-17T07:28:18Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Enhancing Confidence Expression in Large Language Models Through Learning from Past Experience [41.06726400259579]
大規模言語モデル(LLM)は、様々な下流タスクで顕著なパフォーマンスを示している。
信頼表現能力を高めるために,過去の経験から学習する方法(LePe)を提案する。
論文 参考訳(メタデータ) (2024-04-16T06:47:49Z) - Calibrating Large Language Models Using Their Generations Only [44.26441565763495]
APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。
概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。
閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
論文 参考訳(メタデータ) (2024-03-09T17:46:24Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Confidence Matters: Revisiting Intrinsic Self-Correction Capabilities of Large Language Models [23.42725642076256]
大規模言語モデル(LLM)は、自己訂正能力への関心が高まっている。
本稿では,LLMの内在的自己補正に関する包括的研究について述べる。
We developed a "If-or-Else" prompting framework, designed to guide LLMs in evaluation of their "confidence"。
論文 参考訳(メタデータ) (2024-02-19T21:38:02Z) - Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation [71.91287418249688]
大規模言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さに悩まされることが多い。
我々は,LLMの自己評価能力を活用し,現実性に向けてモデルを操る訓練信号を提供する。
提案手法は,Llamaファミリーモデルに対して,3つの重要な知識集約タスクにおいて,現実的精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:52:42Z) - The Calibration Gap between Model and Human Confidence in Large Language
Models [14.539888672603743]
大規模言語モデル(LLM)は、その予測がどの程度正確であるかを正確に評価し、伝達できるという意味で、十分に校正される必要がある。
最近の研究は、内部LCMの信頼性評価の品質に焦点を当てている。
本稿では,LLMの応答における外部人間の信頼度とモデルの内部信頼度との相違について検討する。
論文 参考訳(メタデータ) (2024-01-24T22:21:04Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。