論文の概要: Uncertainty Quantification for Named Entity Recognition via Full-Sequence and Subsequence Conformal Prediction
- arxiv url: http://arxiv.org/abs/2601.16999v1
- Date: Tue, 13 Jan 2026 18:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.474066
- Title: Uncertainty Quantification for Named Entity Recognition via Full-Sequence and Subsequence Conformal Prediction
- Title(参考訳): 完全系列と逐次等角予測による名前付きエンティティ認識の不確かさの定量化
- Authors: Matthew Singer, Srijan Sengupta, Karl Pazdernik,
- Abstract要約: シーケンスラベルに基づくNERモデルを適応して不確実性を考慮した予測セットを生成するための一般的なフレームワークを提案する。
予測セットは、ユーザが指定した信頼度レベルで正しいラベルを含むことが保証された完全文ラベルの集合である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Named Entity Recognition (NER) serves as a foundational component in many natural language processing (NLP) pipelines. However, current NER models typically output a single predicted label sequence without any accompanying measure of uncertainty, leaving downstream applications vulnerable to cascading errors. In this paper, we introduce a general framework for adapting sequence-labeling-based NER models to produce uncertainty-aware prediction sets. These prediction sets are collections of full-sentence labelings that are guaranteed to contain the correct labeling with a user-specified confidence level. This approach serves a role analogous to confidence intervals in classical statistics by providing formal guarantees about the reliability of model predictions. Our method builds on conformal prediction, which offers finite-sample coverage guarantees under minimal assumptions. We design efficient nonconformity scoring functions to construct efficient, well-calibrated prediction sets that support both unconditional and class-conditional coverage. This framework accounts for heterogeneity across sentence length, language, entity type, and number of entities within a sentence. Empirical experiments on four NER models across three benchmark datasets demonstrate the broad applicability, validity, and efficiency of the proposed methods.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は多くの自然言語処理(NLP)パイプラインの基本コンポーネントとして機能する。
しかしながら、現在のNERモデルは、通常、不確実性の指標を伴わずに単一の予測ラベルシーケンスを出力し、下流のアプリケーションはカスケードエラーに弱いままである。
本稿では、シーケンスラベルに基づくNERモデルを適用し、不確実性を考慮した予測セットを生成するための一般的なフレームワークを提案する。
これらの予測セットは、ユーザ特定信頼度レベルで正しいラベルを含むことが保証されるフル文ラベリングの集合である。
このアプローチは、モデル予測の信頼性に関する正式な保証を提供することにより、古典統計学における信頼区間に類似した役割を果たす。
本手法は,最小限の仮定で有限サンプルカバレッジを保証する共形予測に基づいて構築する。
非整合性評価関数を設計し、非条件とクラス条件の両方のカバレッジをサポートする効率的でよく校正された予測セットを構築する。
このフレームワークは、文の長さ、言語、エンティティタイプ、文内のエンティティの数にまたがる不均一性を説明できる。
3つのベンチマークデータセットにわたる4つのNERモデルに関する実証実験は、提案手法の適用性、妥当性、効率性を実証している。
関連論文リスト
- COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Epistemic Uncertainty in Conformal Scores: A Unified Approach [2.449909275410288]
等角予測法は、分布のない保証を持つ予測帯域を生成するが、不確実性を明示的に捉えることはできない。
モデルに依存しないアプローチである $texttEPICSCORE$ を導入する。
$texttEPICSCORE$は、限られたデータを持つ領域の予測間隔を適応的に拡張し、データが豊富であるコンパクト間隔を維持します。
論文 参考訳(メタデータ) (2025-02-10T19:42:54Z) - Conformal Prediction Sets with Improved Conditional Coverage using Trust Scores [52.92618442300405]
有限サンプルにおいて、正確に分布のない条件付きカバレッジを達成することは不可能である。
本稿では,最も重要となる範囲を対象とするコンフォメーション予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-17T12:01:56Z) - Conformal Generative Modeling with Improved Sample Efficiency through Sequential Greedy Filtering [55.15192437680943]
生成モデルは出力に対する厳密な統計的保証を欠いている。
厳密な統計的保証を満たす予測セットを生成する逐次共形予測法を提案する。
このことは、高い確率で予測セットが少なくとも1つの許容可能な(または有効な)例を含むことを保証している。
論文 参考訳(メタデータ) (2024-10-02T15:26:52Z) - Beyond Conformal Predictors: Adaptive Conformal Inference with Confidence Predictors [1.3812010983144802]
本研究は,適応整形推論(ACI)の望ましい性質が整形予測器(CP)の使用を必要としないことを示す。
非互換信頼予測器(NCCP)の非交換データに対するACI使用時のCPに対する性能を実証的に検討した。
論文 参考訳(メタデータ) (2024-09-23T21:02:33Z) - Spatial-Aware Conformal Prediction for Trustworthy Hyperspectral Image Classification [39.71307720326761]
ハイパースペクトル画像(HSI)分類では、各ピクセルに固有のラベルを割り当て、様々な土地被覆カテゴリを識別する。
深部分類器はこの分野で高い予測精度を達成したが、予測の信頼性を定量化する能力は欠如している。
本研究では,HSIデータに特化して設計されたコンフォメーション予測フレームワークであるSpatial-Aware Conformal Prediction (textttSACP)を紹介する。
論文 参考訳(メタデータ) (2024-09-02T13:11:38Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。