Fugu-MT 論文翻訳(概要): Reconfidencing LLMs from the Grouping Loss Perspective

論文の概要: Reconfidencing LLMs from the Grouping Loss Perspective

arxiv url: http://arxiv.org/abs/2402.04957v1
Date: Wed, 7 Feb 2024 15:40:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 14:52:05.001080
Title: Reconfidencing LLMs from the Grouping Loss Perspective
Title（参考訳）: グループ化損失から見たLCMの再検討
Authors: Lihu Chen, Alexandre Perez-Lebel, Fabian M. Suchanek, Ga\"el Varoquaux
Abstract要約: 大規模言語モデル(LLM)は、自信のある音調で幻覚的な答えを生じさせる可能性がある。近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。そこで我々は,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築した。
参考スコア（独自算出の注目度）: 53.46677002840564
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs), including ChatGPT and LLaMA, are susceptible to generating hallucinated answers in a confident tone. While efforts to elicit and calibrate confidence scores have proven useful, recent findings show that controlling uncertainty must go beyond calibration: predicted scores may deviate significantly from the actual posterior probabilities due to the impact of grouping loss. In this work, we construct a new evaluation dataset derived from a knowledge base to assess confidence scores given to answers of Mistral and LLaMA. Experiments show that they tend to be overconfident. Further, we show that they are more overconfident on some answers than others, \emph{eg} depending on the nationality of the person in the query. In uncertainty-quantification theory, this is grouping loss. To address this, we propose a solution to reconfidence LLMs, canceling not only calibration but also grouping loss. The LLMs, after the reconfidencing process, indicate improved confidence alignment with the accuracy of their responses.
Abstract（参考訳）: ChatGPTやLLaMAを含むLarge Language Models (LLMs) は、自信のある音調で幻覚的な回答を生じさせる。信頼性スコアを抽出し、校正する試みは有用であることが証明されているが、近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。本研究では,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築する。実験の結果、自信過剰になりがちである。さらに,質問対象者の国籍によっては,他の回答よりも過度に信頼されていることが明らかとなった。不確実性量子化理論では、これはグループ化損失である。そこで本稿では, キャリブレーションだけでなく, グループ化損失を解消し, LLMを再構成する手法を提案する。 LLMは、再構成後の応答の精度と信頼性の整合性の向上を示す。

関連論文リスト

How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models [28.62988505317048]
大きな言語モデル(LLM)は、非常に矛盾する振る舞いを示す。 LLMは、質問されたときに過度に疑念を抱きがちである一方で、最初の回答において、頑強に過度に自信を抱くように見える。 LLMは選択支援バイアスを顕著に示し、回答に対する信頼度を補強し、向上させることを示す。
論文参考訳（メタデータ） (2025-07-03T18:57:43Z)
Towards Fully Exploiting LLM Internal States to Enhance Knowledge Boundary Perception [58.62352010928591]
大きな言語モデル(LLM)は様々なタスクにまたがって優れたパフォーマンスを示すが、しばしば知識境界を正確に測定するのに苦労する。本稿では,LLMの内部状態を有効利用して,効率性やリスクの観点から知識境界に対する認識を高める方法について検討する。
論文参考訳（メタデータ） (2025-02-17T11:11:09Z)
Confidence in the Reasoning of Large Language Models [0.0]
信頼度は、再考を促す際に、答えを維持するための永続性の観点から測定される。信頼は、基礎となるトークンレベルの確率によってのみ部分的に説明される。
論文参考訳（メタデータ） (2024-12-19T10:04:29Z)
Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文参考訳（メタデータ） (2024-11-20T14:15:18Z)
Learning to Route with Confidence Tokens [43.63392143501436]
大規模言語モデルが回答の信頼性を確実に示すことができる範囲について検討する。本稿では,LLMの信頼性を確実に表現するための軽量トレーニング戦略であるSelf-REFを提案する。信頼度を言語化したり、トークンの確率を調べるといった従来の手法と比較して、信頼度トークンは下流のルーティングや拒否学習タスクにおいて著しく改善されていることを実証的に示す。
論文参考訳（メタデータ） (2024-10-17T07:28:18Z)
LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models [69.68379406317682]
暗黙的および明示的な信頼マーカーを校正するリスナー対応微調整法 (LACIE) を提案する。我々は,LACIEがリスナーをモデル化し,回答が正しいかどうかだけでなく,リスナーに受け入れられるかどうかを考察する。 LACIEによるトレーニングの結果、正しい回答の受け入れレベルを維持しながら、誤った回答が受け入れられる割合が47%減少することがわかった。
論文参考訳（メタデータ） (2024-05-31T17:16:38Z)
SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文参考訳（メタデータ） (2024-05-31T16:21:16Z)
Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。 FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文参考訳（メタデータ） (2024-02-27T01:37:23Z)
Quantifying Uncertainty in Answers from any Language Model and Enhancing their Trustworthiness [16.35655151252159]
本稿では,事前訓練された大規模言語モデルから悪い,投機的な回答を検出するBSDetectorを紹介する。我々の不確実性定量化技術は,ブラックボックスAPIを通じてのみアクセス可能な LLM に対して有効である。
論文参考訳（メタデータ） (2023-08-30T17:53:25Z)
Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文参考訳（メタデータ） (2023-05-24T10:12:33Z)
Beyond calibration: estimating the grouping loss of modern neural networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文参考訳（メタデータ） (2022-10-28T07:04:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。