論文の概要: Measuring Language Model Hallucinations Through Distributional Correctness
- arxiv url: http://arxiv.org/abs/2510.04302v1
- Date: Sun, 05 Oct 2025 17:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.572375
- Title: Measuring Language Model Hallucinations Through Distributional Correctness
- Title(参考訳): 分布的正確性による言語モデル幻覚の測定
- Authors: Thomas F Burns,
- Abstract要約: この問題を解決するために,新しい評価基準である分布補正スコア(DCS)を導入した。
DCSは、誤った回答における有害な過信と、棄権によって表される不確実性を区別し、解釈可能なデフォルト範囲でスコアを提供する。
DCSは、推測よりも真に不確実性を表現するモデルにインセンティブを与える、よりニュアンスで整列した評価パラダイムを提供する。
- 参考スコア(独自算出の注目度): 7.106986689736826
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Common evaluation paradigms for language models focus on scoring single responses through accuracy metrics or proper scoring rules, failing to capture the full richness of a model's belief state. Recent work illustrates that language models hallucinate in-part because they are optimised to be good test-takers under binary scoring schemes that reward any answer over abstention. While this insight naturally leads to penalty-based approaches, they ignore crucial distinctions in how models distribute uncertainty, for example between hedging toward incorrect answers versus hedging toward "I don't know" responses. A novel evaluation metric, the Distributional Correctness Score (DCS), is introduced to solve this problem, i.e., of not considering a model's entire probability distribution over answer choices. DCS naturally distinguishes between harmful overconfidence in wrong answers and uncertainty expressed through abstention, providing scores in an interpretable default range. Through theoretical analysis and illustrative examples, DCS is demonstrated to offer a more nuanced and aligned evaluation paradigm that incentivises models to express genuine uncertainty rather than guessing. Adapting 12 existing evaluation benchmarks to DCS's variants and measuring performance on six language models reveals that for half of the tested benchmarks scores are negative across all tested models, indicating significant tendencies towards hallucination.
- Abstract(参考訳): 言語モデルの一般的な評価パラダイムは、精度の指標や適切なスコアリングルールを通じて単一の応答を評価することに集中しており、モデルの信念状態の完全な豊かさを捉えていない。
最近の研究は、言語モデルは、棄権よりも答えを報いるバイナリスコアリングスキームの下で、良いテストテイカーになるように最適化されているため、その一部に幻覚を与えることを示している。
この洞察は当然ペナルティベースのアプローチにつながるが、モデルが不確実性を分散する方法において重要な違いを無視している。
新たな評価基準である分布補正スコア(DCS)を導入し,解答選択に対するモデル全体の確率分布を考慮しない。
DCSは、誤った回答における有害な過信と、棄権によって表される不確実性を自然に区別し、解釈可能なデフォルト範囲でスコアを提供する。
理論的分析とイラストレーションの例を通して、DCSは推測よりも真に不確実性を表現するモデルにインセンティブを与える、よりニュアンスで整列した評価パラダイムを提供することを示した。
既存の12の評価ベンチマークをDCSの変種に適用し、6つの言語モデルのパフォーマンスを測定した結果、テストされたベンチマークのスコアの半分はすべてのテストモデルで陰性であり、幻覚への大きな傾向を示していることが判明した。
関連論文リスト
- The NazoNazo Benchmark: A Cost-Effective and Extensible Test of Insight-Based Reasoning in LLMs [3.9977256267361754]
そこで本研究では,日本人児童のライドルから構築した費用効果評価指標であるNazonazoについて紹介する。
GPT-5以外のモデルは人間の性能に匹敵せず、平均精度は52.9%である。
論文 参考訳(メタデータ) (2025-09-18T07:50:04Z) - Conformal Linguistic Calibration: Trading-off between Factuality and Specificity [41.45862052156885]
本稿では,言語プラグマティクスのレンズを通して,抑止と言語キャリブレーションを結合する枠組みを提案する。
以上の結果から,本手法は実精度に適合した精度で校正出力を生成する。
論文 参考訳(メタデータ) (2025-02-26T13:01:49Z) - Semi-supervised Learning For Robust Speech Evaluation [30.593420641501968]
音声評価は、自動モデルを用いて学習者の口頭習熟度を測定する。
本稿では,半教師付き事前学習と客観的正規化を活用することで,このような課題に対処することを提案する。
アンカーモデルは、発音の正しさを予測するために擬似ラベルを用いて訓練される。
論文 参考訳(メタデータ) (2024-09-23T02:11:24Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Augmentation by Counterfactual Explanation -- Fixing an Overconfident
Classifier [11.233334009240947]
極めて正確だが過信的なモデルは、ヘルスケアや自動運転といった重要なアプリケーションへのデプロイには不適である。
本稿では,過度に信頼された分類器の修正に反事実的説明を適用することを提案する。
論文 参考訳(メタデータ) (2022-10-21T18:53:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。