論文の概要: Think Twice Before Assure: Confidence Estimation for Large Language Models through Reflection on Multiple Answers
- arxiv url: http://arxiv.org/abs/2403.09972v1
- Date: Fri, 15 Mar 2024 02:38:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 20:46:21.371239
- Title: Think Twice Before Assure: Confidence Estimation for Large Language Models through Reflection on Multiple Answers
- Title(参考訳): 保証前に2回考える: 複数回答に対するリフレクションによる大規模言語モデルの信頼度推定
- Authors: Moxin Li, Wenjie Wang, Fuli Feng, Fengbin Zhu, Qifan Wang, Tat-Seng Chua,
- Abstract要約: 本稿では,複数の候補回答の信頼性を徹底的に評価し,不正確な回答に対する過度な信頼を緩和する新しいパラダイムを提案する。
まず, LLMに各回答の正当性を反映し, 正当性を付与するように指示し, 総合的信頼度推定のための正当性を集約する2段階の枠組みを導入する。
- 参考スコア(独自算出の注目度): 90.71323430635593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Confidence estimation aiming to evaluate output trustability is crucial for the application of large language models (LLM), especially the black-box ones. Existing confidence estimation of LLM is typically not calibrated due to the overconfidence of LLM on its generated incorrect answers. Existing approaches addressing the overconfidence issue are hindered by a significant limitation that they merely consider the confidence of one answer generated by LLM. To tackle this limitation, we propose a novel paradigm that thoroughly evaluates the trustability of multiple candidate answers to mitigate the overconfidence on incorrect answers. Building upon this paradigm, we introduce a two-step framework, which firstly instructs LLM to reflect and provide justifications for each answer, and then aggregates the justifications for comprehensive confidence estimation. This framework can be integrated with existing confidence estimation approaches for superior calibration. Experimental results on six datasets of three tasks demonstrate the rationality and effectiveness of the proposed framework.
- Abstract(参考訳): 信頼度評価を目的とした信頼度推定は,大規模言語モデル(LLM),特にブラックボックスモデルの適用において重要である。
LLMの既存の信頼度推定は、その生成した誤った回答に対するLLMの過度な信頼のために調整されないのが一般的である。
過信問題に対処する既存のアプローチは、LLMが生み出す1つの回答の信頼性を単に考慮しているという重大な制限によって妨げられている。
この制限に対処するために、複数の候補回答の信頼性を徹底的に評価し、不正確な回答に対する過信を軽減する新しいパラダイムを提案する。
このパラダイムを基盤として,まず LLM に各回答の正当性を反映して提示するように指示し,さらに総合的信頼度推定のための正当性を集約する2段階の枠組みを導入する。
このフレームワークは、優れたキャリブレーションのための既存の信頼度推定手法と統合することができる。
3つのタスクの6つのデータセットに対する実験結果は、提案フレームワークの合理性と有効性を示している。
関連論文リスト
- Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。
テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。
以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文 参考訳(メタデータ) (2024-05-17T03:50:28Z) - Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [45.87069217634753]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。
我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。
要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文 参考訳(メタデータ) (2024-01-04T00:32:33Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Sentiment Analysis through LLM Negotiations [58.67939611291001]
感情分析の標準的なパラダイムは、単一のLCMに依存して、その決定を1ラウンドで行うことである。
本稿では,感情分析のためのマルチLLMネゴシエーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T12:35:29Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Quantifying Uncertainty in Answers from any Language Model and Enhancing
their Trustworthiness [16.35655151252159]
本稿では,事前訓練された大規模言語モデルから悪い,投機的な回答を検出するBSDetectorを紹介する。
我々の不確実性定量化技術は,ブラックボックスAPIを通じてのみアクセス可能な LLM に対して有効である。
論文 参考訳(メタデータ) (2023-08-30T17:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。