論文の概要: SelfReflect: Can LLMs Communicate Their Internal Answer Distribution?
- arxiv url: http://arxiv.org/abs/2505.20295v3
- Date: Tue, 30 Sep 2025 14:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.005003
- Title: SelfReflect: Can LLMs Communicate Their Internal Answer Distribution?
- Title(参考訳): 自尊心:LLMは内部回答をコミュニケーションできるか?
- Authors: Michael Kirchhof, Luca Füger, Adam Goliński, Eeshan Gunesh Dhekane, Arno Blaas, Seong Joon Oh, Sinead Williamson,
- Abstract要約: 我々は,要約と回答上の分布の間の情報理論的距離であるSelfReflectメトリックを開発した。
我々は,SelfReflectが,要約文字列と LLM の内部分布の回答に対する忠実度を細かな尺度で表していることを示す。
- 参考スコア(独自算出の注目度): 21.270758668026023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The common approach to communicate a large language model's (LLM) uncertainty is to add a percentage number or a hedging word to its response. But is this all we can do? Instead of generating a single answer and then hedging it, an LLM that is fully transparent to the user needs to be able to reflect on its internal belief distribution and output a summary of all options it deems possible, and how likely they are. To test whether LLMs possess this capability, we develop the SelfReflect metric, an information-theoretic distance between a given summary and a distribution over answers. In interventional and human studies, we find that SelfReflect indicates even slight deviations, yielding a fine measure of faithfulness between a summary string and an LLM's actual internal distribution over answers. With SelfReflect, we make a resounding negative observation: modern LLMs are, across the board, incapable of revealing what they are uncertain about, neither through reasoning, nor chains-of-thoughts, nor explicit finetuning. However, we do find that LLMs are able to generate faithful summaries of their uncertainties if we help them by sampling multiple outputs and feeding them back into the context. This simple approach shines a light at the universal way of communicating LLM uncertainties whose future development the SelfReflect score enables.
- Abstract(参考訳): 大規模言語モデルの不確実性(LLM)を伝える一般的なアプローチは、応答にパーセンテージ数やヘッジワードを追加することである。
しかし、これができることなのか?
単一の回答を生成してそれを隠蔽する代わりに、ユーザに対して完全に透過的なLCMは、内部の信念分布を反映し、可能なすべてのオプションのサマリと、それらがどの程度ありそうなのかを出力しなければなりません。
LLMがこの能力を持つかどうかを検証するために、与えられた要約と回答上の分布の間の情報理論距離であるSelfReflectメトリックを開発した。
介入的および人的研究において、SelfReflect はわずかな偏差をも示し、要約文字列と LLM の内部分布の回答に対する忠実度を微妙に測定する。
現代のLLMは、ボード全体にわたって、推論やチェーン・オブ・ソート、明示的な微調整などを通じて、不確実なものを明らかにすることができません。
しかし、複数の出力をサンプリングし、それらをコンテキストにフィードバックすることで、LCMが不確実性に関する忠実な要約を生成することができることがわかった。
この単純なアプローチは、セルフレフレクトスコアが許容する将来の開発が可能なLCMの不確実性を伝える普遍的な方法に光を当てます。
関連論文リスト
- Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - DIF: A Framework for Benchmarking and Verifying Implicit Bias in LLMs [1.89915151018241]
我々は、Large Language Models(LLMs)における暗黙のバイアスは倫理的な問題であるだけでなく、技術的な問題でもあると主張している。
我々は、容易に解釈可能なベンチマークDIF(Demographic Implicit Fairness)の計算方法を開発した。
論文 参考訳(メタデータ) (2025-05-15T06:53:37Z) - "I know myself better, but not really greatly": How Well Can LLMs Detect and Explain LLM-Generated Texts? [10.454446545249096]
本稿では,2進(人間対LLM生成)と3進分類(未決定クラスを含む)の2つの設定において,現在のLLMの検出と説明能力について検討する。
異なる大きさの6つのオープンソースLCMを評価し、自己検出(LLM)が相互検出(他のLCMからの出力の同定)を一貫して上回っていることを発見した。
本研究は, 自己検出・自己説明における現在のLCMの限界を浮き彫りにして, 過度に適合し, 一般化性を高めるためのさらなる研究の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives [45.87069217634753]
研究によると、外部からのフィードバックがなければ、Large Language Modelの本質的なリフレクションは不安定である。
我々の調査によると、重要なボトルネックは自己評価されたフィードバックの品質である。
要求に合わせて様々な解決の観点を適応的に探求し、相違点を対比し、これらの相違点を再検討し、相違点を排除するために使用できるチェックリストにまとめます。
論文 参考訳(メタデータ) (2024-01-04T00:32:33Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。