論文の概要: Well-calibrated Confidence Measures for Multi-label Text Classification
with a Large Number of Labels
- arxiv url: http://arxiv.org/abs/2312.09304v1
- Date: Thu, 14 Dec 2023 19:17:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 17:58:43.768170
- Title: Well-calibrated Confidence Measures for Multi-label Text Classification
with a Large Number of Labels
- Title(参考訳): ラベル数の多い多ラベルテキスト分類における信頼度の評価
- Authors: Lysimachos Maltoudoglou, Andreas Paisios, Ladislav Lenc, Ji\v{r}\'i
Mart\'inek, Pavel Kr\'al, Harris Papadopoulos
- Abstract要約: 本稿では,ラベルパワーセット (LP) ICP の計算非効率性に対処する新しい手法を提案する。
LP-ICPを3種類の深層ニューラルネットワーク (ANN) 分類器に適用し, 文脈型 (bert) と非文脈型 (word2vec) ワード埋め込み型 (word2vec) の2種類について検討した。
提案手法は, p-値が指定された値以下のラベルセットのかなりの数を考慮することにより, LPの計算負担の増大に対処する。
- 参考スコア(独自算出の注目度): 1.1833906227033337
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We extend our previous work on Inductive Conformal Prediction (ICP) for
multi-label text classification and present a novel approach for addressing the
computational inefficiency of the Label Powerset (LP) ICP, arrising when
dealing with a high number of unique labels. We present experimental results
using the original and the proposed efficient LP-ICP on two English and one
Czech language data-sets. Specifically, we apply the LP-ICP on three deep
Artificial Neural Network (ANN) classifiers of two types: one based on
contextualised (bert) and two on non-contextualised (word2vec) word-embeddings.
In the LP-ICP setting we assign nonconformity scores to label-sets from which
the corresponding p-values and prediction-sets are determined. Our approach
deals with the increased computational burden of LP by eliminating from
consideration a significant number of label-sets that will surely have p-values
below the specified significance level. This reduces dramatically the
computational complexity of the approach while fully respecting the standard CP
guarantees. Our experimental results show that the contextualised-based
classifier surpasses the non-contextualised-based ones and obtains
state-of-the-art performance for all data-sets examined. The good performance
of the underlying classifiers is carried on to their ICP counterparts without
any significant accuracy loss, but with the added benefits of ICP, i.e. the
confidence information encapsulated in the prediction sets. We experimentally
demonstrate that the resulting prediction sets can be tight enough to be
practically useful even though the set of all possible label-sets contains more
than $1e+16$ combinations. Additionally, the empirical error rates of the
obtained prediction-sets confirm that our outputs are well-calibrated.
- Abstract(参考訳): 複数ラベルテキスト分類のためのインダクティブ・コンフォーマル・予測(ICP)に関するこれまでの研究を拡張し、多数のユニークなラベルを扱う場合のラベル・パワーセット(LP)ICPの計算非効率性に対処するための新しいアプローチを提案する。
2つの英語と1つのチェコ語データセットに対して、原語と提案した効率的なLP-ICPを用いた実験結果を示す。
具体的には、LP-ICPを3つの深層ニューラルネットワーク(ANN)分類器に適用し、文脈的(bert)に基づくものと文脈的(word2vec)な単語埋め込みに基づくものである。
LP-ICP設定では、対応するp値と予測セットが決定されるラベルセットに非整合スコアを割り当てる。
提案手法は, p-値が指定された値以下のラベルセットのかなりの数を考慮することにより, LPの計算負担の増大に対処する。
これにより、標準CP保証を完全に尊重しながら、アプローチの計算複雑性が劇的に減少する。
実験の結果,コンテキスト化型分類器は非コンテキスト化型を上回っており,すべてのデータセットに対して最先端の性能が得られることがわかった。
基礎となる分類器の優れた性能は、ICPの精度を損なうことなく、ICPの利点、すなわち予測セットにカプセル化された信頼情報によって達成される。
可能なラベルセットの集合は1e+16$以上の組合せを含むにもかかわらず、結果として得られる予測セットが実用的に有用であることを示す。
さらに、得られた予測セットの経験的誤差率は、出力が適切に調整されていることを確認する。
関連論文リスト
- A Debiased Nearest Neighbors Framework for Multi-Label Text Classification [13.30576550077694]
マルチラベルテキスト分類(MLTC)のためのDebiased Nearest Neighbors(DENN)フレームワークについて紹介する。
組込みアライメントバイアスに対処するために,ラベル共起における近傍の一貫性を向上する,非バイアス付きコントラスト学習戦略を提案する。
信頼度推定バイアスには,$k$NNの予測と帰納的二分分類の適応的組み合わせを改善し,偏りのある信頼度推定戦略を提案する。
論文 参考訳(メタデータ) (2024-08-06T14:00:23Z) - Adapting Conformal Prediction to Distribution Shifts Without Labels [16.478151550456804]
コンフォーマル予測(CP)により、機械学習モデルは、保証されたカバレッジ率で予測セットを出力できる。
我々の目標は、テストドメインからのラベルなしデータのみを使用して、CP生成予測セットの品質を改善することです。
これは、未ラベルテストデータに対するベースモデルの不確実性に応じてCPのスコア関数を調整する、ECP と EACP と呼ばれる2つの新しい手法によって達成される。
論文 参考訳(メタデータ) (2024-06-03T15:16:02Z) - PAC Prediction Sets Under Label Shift [52.30074177997787]
予測セットは、個々のラベルではなくラベルのセットを予測することによって不確実性を捉える。
ラベルシフト設定においてPAC保証付き予測セットを構築するための新しいアルゴリズムを提案する。
提案手法を5つのデータセットで評価する。
論文 参考訳(メタデータ) (2023-10-19T17:57:57Z) - Ambiguity-Resistant Semi-Supervised Learning for Dense Object Detection [98.66771688028426]
本研究では,一段階検出器のためのAmbiguity-Resistant Semi-supervised Learning (ARSL)を提案する。
擬似ラベルの分類とローカライズ品質を定量化するために,JCE(Joint-Confidence Estimation)を提案する。
ARSLは、曖昧さを効果的に軽減し、MS COCOおよびPASCALVOC上で最先端のSSOD性能を達成する。
論文 参考訳(メタデータ) (2023-03-27T07:46:58Z) - NP-Match: Towards a New Probabilistic Model for Semi-Supervised Learning [86.60013228560452]
半教師付き学習(SSL)は近年広く研究されており、ラベルのないデータを活用する効果的な方法である。
本研究では,ニューラルネットワーク(NP)を半教師付き画像分類タスクに調整し,NP-Matchと呼ばれる新しい手法を提案する。
NP-Matchは、予測を行う際のデータポイントを暗黙的に比較し、その結果、ラベル付けされていない各データポイントの予測がラベル付きデータポイントに影響される。
論文 参考訳(メタデータ) (2023-01-31T11:44:45Z) - NP-Match: When Neural Processes meet Semi-Supervised Learning [133.009621275051]
半教師付き学習(SSL)は近年広く研究されており、ラベル付きデータへの依存を減らすためにラベル付きデータを活用する効果的な方法である。
本研究では,ニューラルネットワーク(NP)を半教師付き画像分類タスクに調整し,NP-Matchと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-07-03T15:24:31Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Pointwise Binary Classification with Pairwise Confidence Comparisons [97.79518780631457]
ペアワイズ比較(Pcomp)分類を提案し、ラベルのないデータのペアしか持たない。
我々はPcomp分類をノイズラベル学習に結びつけて、進歩的UREを開発し、一貫性の正則化を課すことにより改善する。
論文 参考訳(メタデータ) (2020-10-05T09:23:58Z) - Efficient Conformal Prediction via Cascaded Inference with Expanded
Admission [43.596058175459746]
共形予測(CP)のための新しい手法を提案する。
我々は、単一の予測の代わりに、予測候補のセットを特定することを目指している。
この集合は、高い確率で正しい答えを含むことが保証される。
論文 参考訳(メタデータ) (2020-07-06T23:13:07Z) - On Aggregation in Ensembles of Multilabel Classifiers [4.842945656927122]
予測と組み合わせ (PTC) と合成と予測 (CTP) は, マルチラベル分類をアンサンブルする2つの主要なアプローチである。
PTCは非分解不能な損失に対してより良い選択であることを示す。
論文 参考訳(メタデータ) (2020-06-21T21:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。