論文の概要: Uncertainty in Language Models: Assessment through Rank-Calibration
- arxiv url: http://arxiv.org/abs/2404.03163v1
- Date: Thu, 4 Apr 2024 02:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 16:03:13.226287
- Title: Uncertainty in Language Models: Assessment through Rank-Calibration
- Title(参考訳): 言語モデルの不確かさ:ランクキャリブレーションによる評価
- Authors: Xinmeng Huang, Shuo Li, Mengxin Yu, Matteo Sesia, Hamed Hassani, Insup Lee, Osbert Bastani, Edgar Dobriban,
- Abstract要約: 言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
- 参考スコア(独自算出の注目度): 65.10149293133846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language Models (LMs) have shown promising performance in natural language generation. However, as LMs often generate incorrect or hallucinated responses, it is crucial to correctly quantify their uncertainty in responding to given inputs. In addition to verbalized confidence elicited via prompting, many uncertainty measures ($e.g.$, semantic entropy and affinity-graph-based measures) have been proposed. However, these measures can differ greatly, and it is unclear how to compare them, partly because they take values over different ranges ($e.g.$, $[0,\infty)$ or $[0,1]$). In this work, we address this issue by developing a novel and practical framework, termed $Rank$-$Calibration$, to assess uncertainty and confidence measures for LMs. Our key tenet is that higher uncertainty (or lower confidence) should imply lower generation quality, on average. Rank-calibration quantifies deviations from this ideal relationship in a principled manner, without requiring ad hoc binary thresholding of the correctness score ($e.g.$, ROUGE or METEOR). The broad applicability and the granular interpretability of our methods are demonstrated empirically.
- Abstract(参考訳): 言語モデル(LM)は、自然言語生成において有望な性能を示している。
しかし、LMはしばしば誤ったあるいは幻覚的な応答を生成するため、与えられた入力に応答する際の不確かさを正しく定量化することが重要である。
プロンプトによって誘発される言語化された自信に加えて、多くの不確実性対策(例えば、意味エントロピー、親和性グラフに基づく尺度)が提案されている。
しかし、これらの測度は大きな違いがあり、異なる範囲(例えば $, $[0,\infty)$ または $[0,1]$)で値を取るため、どのように比較するかは不明である。
本稿では,LMの確実性と信頼性を評価するために,新規で実用的なフレームワークである$Rank$-$Calibration$を開発し,この問題に対処する。
私たちのキーテットは、高い不確実性(または低い信頼)は、平均して世代品質を低下させるべきだ、ということです。
ランクキャリブレーションは、正当性スコア(例えば、ROUGEやMETEOR)のアドホックな二項しきい値を必要とすることなく、この理想的関係からの偏差を原則的に定量化する。
本手法の広範な適用性と粒度の解釈性について実験的に検証した。
関連論文リスト
- Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Fact-Checking the Output of Large Language Models via Token-Level
Uncertainty Quantification [119.38495860737929]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Language Models with Conformal Factuality Guarantees [44.767328168194815]
コンフォーマルな事実性(conformal factuality)は、言語モデル(LM)出力に対する高い確率の正確性を保証するフレームワークである。
言語モデルにおける共形予測は,高い確率精度保証を提供するバックオフアルゴリズムに対応することを示す。
論文 参考訳(メタデータ) (2024-02-15T18:31:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Decomposing Uncertainty for Large Language Models through Input
Clarification Ensembling [74.00331519233026]
大規模言語モデル(LLM)のための不確実性分解フレームワークを提案する。
我々のフレームワークは入力の一連の明確化を生成し、それらを固定LLMに入力し、対応する予測をアンサンブルする。
実験により,提案手法は様々なタスクに対して正確かつ確実な不確実性定量化を提供することを示した。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - Evaluating AI systems under uncertain ground truth: a case study in
dermatology [44.80772162289557]
本稿では,アノテーションの不確実性を測定するための指標を提案し,評価のための不確実性調整指標を提案する。
本稿では,本フレームワークを皮膚条件分類に応用した症例スタディとして,アノテーションを診断の形で提供した画像について述べる。
論文 参考訳(メタデータ) (2023-07-05T10:33:45Z) - Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models [28.67546891608135]
大規模言語モデル (LLMs) は, 自然言語生成や命令の追従において, 顕著な可能性を示している。
不確実性定量化(UQ)は有望なソリューションであり、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。
我々は,より関連性の高いコンポーネントへの注意をトークンレベルと文レベルの両方で協調的にシフトし,正確な不確かさを推定する。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - What is Flagged in Uncertainty Quantification? Latent Density Models for
Uncertainty Categorization [68.15353480798244]
不確実性定量化(UQ)は、信頼できる機械学習モデルを作成する上で不可欠である。
近年、疑わしい事例にフラグを立てるUQ手法が急上昇している。
分類タスクにおけるUQ手法によってフラグ付けされた不確実な例を分類する枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-11T19:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。