論文の概要: Gauging Overprecision in LLMs: An Empirical Study
- arxiv url: http://arxiv.org/abs/2504.12098v1
- Date: Wed, 16 Apr 2025 14:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:40:00.872858
- Title: Gauging Overprecision in LLMs: An Empirical Study
- Title(参考訳): LLMにおける過剰精度の計測--実証的研究
- Authors: Adil Bahaj, Hamed Rahimi, Mohamed Chetouani, Mounir Ghogho,
- Abstract要約: この研究は、テクストオーバー精度と呼ばれる認知科学における過信の異なる側面から着想を得ている。
生成段階では、一定の信頼度を持つ間隔で数値的な質問に対する回答を生成するようにLCMに促す。
精錬段階では、前フェーズからの回答を精錬してより良い回答を生成する。
- 参考スコア(独自算出の注目度): 5.359801516815977
- License:
- Abstract: Recently, overconfidence in large language models (LLMs) has garnered considerable attention due to its fundamental importance in quantifying the trustworthiness of LLM generation. However, existing approaches prompt the \textit{black box LLMs} to produce their confidence (\textit{verbalized confidence}), which can be subject to many biases and hallucinations. Inspired by a different aspect of overconfidence in cognitive science called \textit{overprecision}, we designed a framework for its study in black box LLMs. This framework contains three main phases: 1) generation, 2) refinement and 3) evaluation. In the generation phase we prompt the LLM to generate answers to numerical questions in the form of intervals with a certain level of confidence. This confidence level is imposed in the prompt and not required for the LLM to generate as in previous approaches. We use various prompting techniques and use the same prompt multiple times to gauge the effects of randomness in the generation process. In the refinement phase, answers from the previous phase are refined to generate better answers. The LLM answers are evaluated and studied in the evaluation phase to understand its internal workings. This study allowed us to gain various insights into LLM overprecision: 1) LLMs are highly uncalibrated for numerical tasks 2) {\color{blue}there is no correlation between the length of the interval and the imposed confidence level, which can be symptomatic of a a) lack of understanding of the concept of confidence or b) inability to adjust self-confidence by following instructions}, {\color{blue}3)} LLM numerical precision differs depending on the task, scale of answer and prompting technique {\color{blue}4) Refinement of answers doesn't improve precision in most cases}. We believe this study offers new perspectives on LLM overconfidence and serves as a strong baseline for overprecision in LLMs.
- Abstract(参考訳): 近年,LLM生成の信頼性を定量化する上での基本的な重要性から,大規模言語モデル(LLM)の過信が注目されている。
しかしながら、既存のアプローチは、多くのバイアスと幻覚を被る可能性のある信頼(\textit{verbalized confidence})を生み出すために、 \textit{black box LLMs} を誘導する。
認知科学における過剰信頼の異なる側面である「textit{overprecision}」に着想を得て,ブラックボックスLSMの研究のための枠組みを考案した。
このフレームワークには3つの主要なフェーズがある。
1代。
2)改良・改良
3) 評価。
生成段階では、一定の信頼度を持つ間隔の形で数値的な質問に対する回答を生成するようLLMに促す。
この信頼度は、従来のアプローチのようにLCMが生成する必要がなく、プロンプトに課される。
生成プロセスにおけるランダム性の影響を計測するために、様々なプロンプト技術を使用し、同じプロンプトを複数回使用します。
精錬段階では、前フェーズからの回答を精錬してより良い回答を生成する。
LLMの回答は評価フェーズで評価され、内部動作を理解するために研究される。
この研究により、LSMの過度な精度に関する様々な洞察が得られました。
1)LLMは数値処理に非常に適していない
2) {\color{blue} 区間の長さと課された信頼度との間には相関がないが、これはaのシンプトティックである。
a) 自信の概念の理解の欠如、または
b) 次の指示により自己自信を調整することができないこと, {\color{blue}3} LLM数値精度は,課題,回答の規模,促す技術によって異なる。 (color{blue}4) 回答の精細化は,ほとんどの場合,精度を向上しない。
本研究は, LLMの過信に対する新たな視点を提供し, LLMの過信に対する強力なベースラインとして機能すると考えている。
関連論文リスト
- Understanding the Dark Side of LLMs' Intrinsic Self-Correction [55.51468462722138]
LLMの応答を改善するために,本質的な自己補正法が提案された。
近年の研究では、LLMの内在的な自己補正は、フィードバックのプロンプトとして、オラクルラベルなしで失敗することが示されている。
内在的な自己補正は、中途半端な回答と最終回答の両方を LLM が揺らぎ、単純な事実的質問に対する素早い偏見をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-12-19T15:39:31Z) - Learning to Route LLMs with Confidence Tokens [43.63392143501436]
大規模言語モデルが回答の信頼性を確実に示すことができる範囲について検討する。
本稿では,LLMの信頼性を確実に表現するための軽量トレーニング戦略であるSelf-REFを提案する。
信頼度を言語化したり、トークンの確率を調べるといった従来の手法と比較して、信頼度トークンは下流のルーティングや拒否学習タスクにおいて著しく改善されていることを実証的に示す。
論文 参考訳(メタデータ) (2024-10-17T07:28:18Z) - SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。
さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:21:16Z) - Enhancing Confidence Expression in Large Language Models Through Learning from Past Experience [41.06726400259579]
大規模言語モデル(LLM)は、様々な下流タスクで顕著なパフォーマンスを示している。
信頼表現能力を高めるために,過去の経験から学習する方法(LePe)を提案する。
論文 参考訳(メタデータ) (2024-04-16T06:47:49Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。