論文の概要: Self-reflective Uncertainties: Do LLMs Know Their Internal Answer Distribution?
- arxiv url: http://arxiv.org/abs/2505.20295v1
- Date: Mon, 26 May 2025 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.458647
- Title: Self-reflective Uncertainties: Do LLMs Know Their Internal Answer Distribution?
- Title(参考訳): 自己反射不確かさ:LLMは内部回答の分布を知っているか?
- Authors: Michael Kirchhof, Luca Füger, Adam Goliński, Eeshan Gunesh Dhekane, Arno Blaas, Sinead Williamson,
- Abstract要約: 本稿では,LLMの内部回答分布を文字列がいかに忠実に要約するかを評価する指標であるSelfReflectを提案する。
我々は、SelfReflectが候補の要約文字列の微妙な違いを識別できることを示した。
SelfReflectでは、いくつかの自己要約手法を調査し、最先端の推論モデルでさえ内部の不確実性を説明できないことを発見した。
- 参考スコア(独自算出の注目度): 3.9003806149601234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To reveal when a large language model (LLM) is uncertain about a response, uncertainty quantification commonly produces percentage numbers along with the output. But is this all we can do? We argue that in the output space of LLMs, the space of strings, exist strings expressive enough to summarize the distribution over output strings the LLM deems possible. We lay a foundation for this new avenue of uncertainty explication and present SelfReflect, a theoretically-motivated metric to assess how faithfully a string summarizes an LLM's internal answer distribution. We show that SelfReflect is able to discriminate even subtle differences of candidate summary strings and that it aligns with human judgement, outperforming alternative metrics such as LLM judges and embedding comparisons. With SelfReflect, we investigate a number of self-summarization methods and find that even state-of-the-art reasoning models struggle to explicate their internal uncertainty. But we find that faithful summarizations can be generated by sampling and summarizing. Our metric enables future works towards this universal form of LLM uncertainties.
- Abstract(参考訳): 大言語モデル(LLM)が応答について不確実である場合、不確実な定量化は出力とともにパーセンテージ番号を通常生成する。
しかし、これができることなのか?
我々は, LLM の出力空間において, LLM の可能な出力文字列上の分布を要約するのに十分な文字列が存在することを論じる。
我々は,この新たな不確実性解法の基礎を築き,LLMの内部回答分布を文字列がいかに忠実に要約するかを評価する理論的動機付けの指標であるSelfReflectを提示する。
我々は、SelfReflectが、候補の要約文字列の微妙な違いを識別することができ、人間の判断と一致し、LLM判定や埋め込み比較などの代替指標よりも優れていることを示す。
SelfReflectでは、いくつかの自己要約手法を調査し、最先端の推論モデルでさえ内部の不確実性を説明できないことを発見した。
しかし、忠実な要約はサンプリングと要約によって生成される。
我々の計量は、この LLM の不確実性の普遍的な形式に向けた将来の研究を可能にする。
関連論文リスト
- Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - DIF: A Framework for Benchmarking and Verifying Implicit Bias in LLMs [1.89915151018241]
我々は、Large Language Models(LLMs)における暗黙のバイアスは倫理的な問題であるだけでなく、技術的な問題でもあると主張している。
我々は、容易に解釈可能なベンチマークDIF(Demographic Implicit Fairness)の計算方法を開発した。
論文 参考訳(メタデータ) (2025-05-15T06:53:37Z) - "I know myself better, but not really greatly": How Well Can LLMs Detect and Explain LLM-Generated Texts? [10.454446545249096]
本稿では,2進(人間対LLM生成)と3進分類(未決定クラスを含む)の2つの設定において,現在のLLMの検出と説明能力について検討する。
異なる大きさの6つのオープンソースLCMを評価し、自己検出(LLM)が相互検出(他のLCMからの出力の同定)を一貫して上回っていることを発見した。
本研究は, 自己検出・自己説明における現在のLCMの限界を浮き彫りにして, 過度に適合し, 一般化性を高めるためのさらなる研究の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [45.87069217634753]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。
我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。
要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文 参考訳(メタデータ) (2024-01-04T00:32:33Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。