論文の概要: When an LLM is apprehensive about its answers -- and when its uncertainty is justified
- arxiv url: http://arxiv.org/abs/2503.01688v1
- Date: Mon, 03 Mar 2025 16:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:33.941713
- Title: When an LLM is apprehensive about its answers -- and when its uncertainty is justified
- Title(参考訳): LLMがその答えについて理解している時、そしてその不確実性が正当化されるとき
- Authors: Petr Sychev, Andrey Goncharov, Daniil Vyazhev, Edvard Khalafyan, Alexey Zaytsev,
- Abstract要約: 大規模言語モデル(LLM)の評価には不確実性推定が不可欠である
本研究では, トークン単位のエントロピーとモデル・アズ・ジャッジ(MASJ)が, 異なる質問トピックに対する複数の質問回答タスクにどのような効果があるかを検討する。
- 参考スコア(独自算出の注目度): 2.0393477576774752
- License:
- Abstract: Uncertainty estimation is crucial for evaluating Large Language Models (LLMs), particularly in high-stakes domains where incorrect answers result in significant consequences. Numerous approaches consider this problem, while focusing on a specific type of uncertainty, ignoring others. We investigate what estimates, specifically token-wise entropy and model-as-judge (MASJ), would work for multiple-choice question-answering tasks for different question topics. Our experiments consider three LLMs: Phi-4, Mistral, and Qwen of different sizes from 1.5B to 72B and $14$ topics. While MASJ performs similarly to a random error predictor, the response entropy predicts model error in knowledge-dependent domains and serves as an effective indicator of question difficulty: for biology ROC AUC is $0.73$. This correlation vanishes for the reasoning-dependent domain: for math questions ROC-AUC is $0.55$. More principally, we found out that the entropy measure required a reasoning amount. Thus, data-uncertainty related entropy should be integrated within uncertainty estimates frameworks, while MASJ requires refinement. Moreover, existing MMLU-Pro samples are biased, and should balance required amount of reasoning for different subdomains to provide a more fair assessment of LLMs performance.
- Abstract(参考訳): 大規模言語モデル(LLM)の評価には不確実性推定が不可欠である。
多くのアプローチがこの問題を考慮し、特定のタイプの不確実性に注目しながら、他の人を無視している。
本研究では, トークン単位のエントロピーとモデル・アズ・ジャッジ(MASJ)が, 異なる質問トピックに対する複数の質問回答タスクにどのような効果があるかを検討する。
実験では,Phi-4,Mistral,Qwenの3つのLLMについて,1.5Bから72B,14$のトピックについて検討した。
MASJはランダムなエラー予測器と同様に機能するが、応答エントロピーは知識に依存した領域におけるモデルエラーを予測し、問題の難しさの効果的な指標として機能する:生物学におけるROC AUCは0.73$である。
この相関関係は推論に依存した領域に対して消滅する: 数学の質問では ROC-AUC は0.55$である。
より具体的には、エントロピー測度は推論量を必要とすることが判明した。
したがって、データ不確実性関連エントロピーは不確実性推定フレームワークに統合されるべきであり、MASJは改善が必要である。
さらに、既存のMMLU-Proサンプルにはバイアスがあり、異なるサブドメインに対する必要な推論量のバランスをとる必要がある。
関連論文リスト
- Benchmarking Large Language Models via Random Variables [40.65711363554025]
近年の研究では、現在の数学ベンチマークの信頼性が懸念されている。
本稿では,Random Variablesによる大規模言語モデルを数学的推論でベンチマークするフレームワークであるRV-Benchを提案する。
以上の結果から,LSMは出現したデータドメインと"見えない"データドメインの習熟度に不整合を示すことが示唆された。
論文 参考訳(メタデータ) (2025-01-20T23:41:22Z) - Are You Doubtful? Oh, It Might Be Difficult Then! Exploring the Use of Model Uncertainty for Question Difficulty Estimation [12.638577140117702]
本研究では,不確実性の特徴が難易度予測に大きく寄与することを示し,難易度は質問に正しく答えられる学生数に逆比例することを示した。
このアプローチの価値を示すことに加えて、BEAが公開しているデータセット上で、私たちのモデルが最先端の結果を達成することも観察します。
論文 参考訳(メタデータ) (2024-12-16T14:55:09Z) - DiverseAgentEntropy: Quantifying Black-Box LLM Uncertainty through Diverse Perspectives and Multi-Agent Interaction [53.803276766404494]
モデルの不確実性を評価する既存の手法は、元のクエリに対する自己整合性を評価することで、必ずしも真の不確実性を把握するわけではない。
マルチエージェントインタラクションを用いたモデルの不確実性評価のための新しい手法であるDiverseAgentEntropyを提案する。
提案手法は,モデルの信頼性をより正確に予測し,さらに幻覚を検知し,他の自己整合性に基づく手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-12T18:52:40Z) - Testing Uncertainty of Large Language Models for Physics Knowledge and Reasoning [0.0]
大規模言語モデル(LLM)は、近年、様々な分野の質問に答える能力で大きな人気を集めている。
本稿では,オープンソースLLMの性能評価のための解析手法を提案する。
我々は,物理に関する話題における解答精度と変数の関係に注目した。
論文 参考訳(メタデータ) (2024-11-18T13:42:13Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Can Model Uncertainty Function as a Proxy for Multiple-Choice Question Item Difficulty? [12.638577140117702]
我々は、質問に答える際の弱点と見なされるような、生成的な大規模モデルの側面を活用する。
本研究では、不確実性の2つの異なる指標と実際の学生の反応分布の相関について検討する。
論文 参考訳(メタデータ) (2024-07-07T10:48:04Z) - To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。
疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。
定式化の利点を実証する一連の実験を行う。
論文 参考訳(メタデータ) (2024-06-04T17:58:18Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。