論文の概要: Uncertainty Estimation for the Open-Set Text Classification systems
- arxiv url: http://arxiv.org/abs/2604.08560v1
- Date: Tue, 17 Mar 2026 12:25:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.415192
- Title: Uncertainty Estimation for the Open-Set Text Classification systems
- Title(参考訳): オープンセットテキスト分類システムの不確かさ推定
- Authors: Leonid Erlygin, Alexey Zaytsev,
- Abstract要約: テキスト領域に対するホロスティック不確実性推定法(HolUE)を適用する。
テキスト認識システムにおける予測誤りの主な原因は,不規則な定式化クエリに起因するテキストの不確かさと,データ分布のあいまいさに関連するギャラリーの不確かさである。
- 参考スコア(独自算出の注目度): 1.0557657302168184
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Accurate uncertainty estimation is essential for building robust and trustworthy recognition systems. In this paper, we consider the open-set text classification (OSTC) task - and uncertainty estimation for it. For OSTC a text sample should be classified as one of the existing classes or rejected as unknown. To account for the different uncertainty types encountered in OSTC, we adapt the Holistic Uncertainty Estimation (HolUE) method for the text domain. Our approach addresses two major causes of prediction errors in text recognition systems: text uncertainty that stems from ill formulated queries and gallery uncertainty that is related the ambiguity of data distribution. By capturing these sources, it becomes possible to predict when the system will make a recognition error. We propose a new OSTC benchmark and conduct extensive experiments on a wide range of data, utilizing the authorship attribution, intent and topic classification datasets. HolUE achieves 40-365% improvement in Prediction Rejection Ratio (PRR) over the quality-based SCF baseline across datasets: 365% on Yahoo Answers (0.79 vs 0.17 at FPIR 0.1), 347% on DBPedia (0.85 vs 0.19), 240% on PAN authorship attribution (0.51 vs 0.15 at FPIR 0.5), and 40% on CLINC150 intent classification (0.73 vs~0.52). We make public our code and protocols https://github.com/Leonid-Erlygin/text_uncertainty.git
- Abstract(参考訳): 堅牢で信頼性の高い認識システムを構築するためには、正確な不確実性推定が不可欠である。
本稿では、オープンセットテキスト分類(OSTC)タスクと、それに対する不確実性推定について考察する。
OSTCでは、テキストサンプルは既存のクラスの1つに分類するか、不明として拒否されるべきである。
テキスト領域に対するホロスティック不確実性推定法(HolUE)を適用する。
テキスト認識システムにおける予測誤りの主な原因は,不規則な定式化クエリに起因するテキストの不確かさと,データ分布のあいまいさに関連するギャラリーの不確かさである。
これらのソースをキャプチャすることで、システムが認識エラーをいつ発生させるかを予測することができる。
我々は、著者属性、意図、トピック分類データセットを利用して、新しいOSTCベンチマークを提案し、幅広いデータに対して広範な実験を行う。
HolUEは、データセット間の品質ベースのSCFベースラインよりも40-365%の改善を実現している: Yahoo Answers(FPIR0.1で0.79対0.17)、DBPedia(0.85対0.19)、PANオーサリング属性(FPIR0.5で0.51対0.15)、CLINC150インテント分類(0.73対...0.52)。
コードとプロトコルを公開します。https://github.com/Leonid-Erlygin/text_uncertainty.git
関連論文リスト
- Conformal Prediction for Privacy-Preserving Machine Learning [83.88591755871734]
AESで暗号化されたMNISTデータセットの変種を用いて、暗号化されたドメインに直接適用しても、コンフォーマル予測法が有効であることを示す。
我々の研究は、安全でプライバシーに配慮した学習システムにおける原則的不確実性定量化の基礎を定めている。
論文 参考訳(メタデータ) (2025-07-13T15:29:14Z) - Estimating Uncertainty with Implicit Quantile Network [0.0]
不確かさの定量化は多くの性能クリティカルなアプリケーションにおいて重要な部分である。
本稿では,アンサンブル学習やベイズニューラルネットワークなど,既存のアプローチに対する簡単な代替手段を提供する。
論文 参考訳(メタデータ) (2024-08-26T13:33:14Z) - Improved Out-of-Scope Intent Classification with Dual Encoding and Threshold-based Re-Classification [6.975902383951604]
現在の手法は、予測不可能なアウトリーチ分布で困難に直面している。
本稿では,これらの課題に対処するため,Dual for Threshold-Based Re-Classification (DETER)を提案する。
我々のモデルは以前のベンチマークより優れており、未知のインテントに対するF1スコアの13%と5%に向上しています。
論文 参考訳(メタデータ) (2024-05-30T11:46:42Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - What Can We Learn From The Selective Prediction And Uncertainty
Estimation Performance Of 523 Imagenet Classifiers [15.929238800072195]
本稿では,既存の523の事前学習深層画像ネット分類器の選択的予測と不確実性評価性能について述べる。
蒸留法に基づくトレーニング体制は、他のトレーニング方式よりも常により良い不確実性推定を導出することを発見した。
例えば、ImageNetでは前例のない99%のトップ1選択精度を47%で発見しました。
論文 参考訳(メタデータ) (2023-02-23T09:25:28Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - MetaDetect: Uncertainty Quantification and Prediction Quality Estimates
for Object Detection [6.230751621285322]
ディープニューラルネットワークを用いたオブジェクト検出では、ボックスワイドのオブジェクト性スコアは過信される傾向にある。
本稿では,任意のニューラルネットワークに対して予測不確実性推定と品質推定を提供するポスト処理手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T21:49:23Z) - Uncertainty Sets for Image Classifiers using Conformal Prediction [112.54626392838163]
本稿では,任意の分類器を修飾して真のラベルを含む予測集合を,90%などのユーザ指定確率で出力するアルゴリズムを提案する。
このアルゴリズムはPlatetスケーリングのようにシンプルで高速だが、すべてのモデルとデータセットに対して正式な有限サンプルカバレッジを保証する。
提案手法は,Plattスケーリング後の可逆クラスの小さなスコアを正規化することにより,より安定した予測セットを与えるために,既存の共形予測アルゴリズムを改良する。
論文 参考訳(メタデータ) (2020-09-29T17:58:04Z) - Certifying Confidence via Randomized Smoothing [151.67113334248464]
ランダムな平滑化は、高次元の分類問題に対して良好な証明されたロバスト性を保証することが示されている。
ほとんどの平滑化法は、下層の分類器が予測する信頼性に関する情報を与えてくれない。
そこで本研究では,スムーズな分類器の予測信頼度を評価するために,認証ラジイを生成する手法を提案する。
論文 参考訳(メタデータ) (2020-09-17T04:37:26Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。