論文の概要: Estimating Confidence of Predictions of Individual Classifiers and Their
Ensembles for the Genre Classification Task
- arxiv url: http://arxiv.org/abs/2206.07427v1
- Date: Wed, 15 Jun 2022 09:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 01:30:16.892478
- Title: Estimating Confidence of Predictions of Individual Classifiers and Their
Ensembles for the Genre Classification Task
- Title(参考訳): ジャンル分類タスクにおける個人分類器の予測信頼度とそのアンサンブルの推定
- Authors: Mikhail Lepekhin and Serge Sharoff
- Abstract要約: Genre IDは、非トピックテキスト分類のサブクラスである。
BERTやXLM-RoBERTaのような事前訓練されたトランスフォーマーに基づく神経モデルは、多くのNLPタスクにおいてSOTA結果を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Genre identification is a subclass of non-topical text classification. The
main difference between this task and topical classification is that genres,
unlike topics, usually do not correspond to simple keywords, and thus they need
to be defined in terms of their functions in communication. Neural models based
on pre-trained transformers, such as BERT or XLM-RoBERTa, demonstrate SOTA
results in many NLP tasks, including non-topical classification. However, in
many cases, their downstream application to very large corpora, such as those
extracted from social media, can lead to unreliable results because of dataset
shifts, when some raw texts do not match the profile of the training set. To
mitigate this problem, we experiment with individual models as well as with
their ensembles. To evaluate the robustness of all models we use a prediction
confidence metric, which estimates the reliability of a prediction in the
absence of a gold standard label. We can evaluate robustness via the confidence
gap between the correctly classified texts and the misclassified ones on a
labeled test corpus, higher gaps make it easier to improve our confidence that
our classifier made the right decision. Our results show that for all of the
classifiers tested in this study, there is a confidence gap, but for the
ensembles, the gap is bigger, meaning that ensembles are more robust than their
individual models.
- Abstract(参考訳): ジャンル識別は、非トピックテキスト分類のサブクラスである。
このタスクとトピックの分類の主な違いは、トピックとは違ってジャンルは通常単純なキーワードに対応せず、コミュニケーションにおける機能の観点から定義する必要があることである。
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、非トピック分類を含む多くのNLPタスクにおいてSOTA結果を示す。
しかし、ソーシャルメディアから抽出したような非常に大きなコーパスへのダウンストリーム適用は、トレーニングセットのプロファイルにマッチしない生テキストがある場合、データセットのシフトによって信頼性の低い結果につながることが多い。
この問題を緩和するために、個々のモデルとそれらのアンサンブルを実験する。
全てのモデルのロバスト性を評価するために,ゴールド・スタンダード・ラベルが存在しない場合の予測の信頼性を推定する予測信頼度指標を用いる。
ラベル付きテストコーパスでは、正しく分類されたテキストと誤った分類されたテキストとの信頼性ギャップによって、堅牢性を評価することができます。
その結果,本研究で検証されたすべての分類器には信頼度ギャップが存在するが,アンサンブルではギャップが大きく,アンサンブルは個々のモデルよりも頑健であることが示された。
関連論文リスト
- Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias [5.698050337128548]
半教師付き学習において、自己学習はよく知られたアプローチである。モデルが自信を持ってラベル付きデータに擬似ラベルを反復的に割り当て、ラベル付き例として扱う。
ニューラルネットワークの場合、ソフトマックス予測確率はしばしば信頼度尺度として使用されるが、誤った予測であっても過度に信頼されていることが知られている。
本稿では,線形分類器のアンサンブルの予測多様性に基づいて,$mathcalT$-similarityと呼ばれる新しい信頼度尺度を提案する。
論文 参考訳(メタデータ) (2023-10-23T11:30:06Z) - How to Fix a Broken Confidence Estimator: Evaluating Post-hoc Methods for Selective Classification with Deep Neural Networks [1.4502611532302039]
我々は,ロジットの単純な$p$-norm正規化を行い,次に最大ロジットを信頼度推定器とすることで,選択的分類性能が著しく向上することを示した。
我々の結果は、分布シフトの下で一貫していることが示されている。
論文 参考訳(メタデータ) (2023-05-24T18:56:55Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Zero-Shot Text Classification with Self-Training [8.68603153534916]
ゼロショット分類器を最も確実な予測で微調整することで、幅広いテキスト分類タスクにおいて大幅な性能向上が期待できることを示す。
自己学習は、手元にあるタスクにゼロショットモデルを適用する。
論文 参考訳(メタデータ) (2022-10-31T17:55:00Z) - Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:37:59Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。