論文の概要: REAL: A Representative Error-Driven Approach for Active Learning
- arxiv url: http://arxiv.org/abs/2307.00968v2
- Date: Thu, 6 Jul 2023 01:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 11:10:10.892062
- Title: REAL: A Representative Error-Driven Approach for Active Learning
- Title(参考訳): REAL: アクティブラーニングのための代表的エラー駆動アプローチ
- Authors: Cheng Chen, Yong Wang, Lizi Liao, Yueguo Chen, Xiaoyong Du
- Abstract要約: $REAL$は、$underlineR$epresentative $underlineE$rrors for $underlineA$ctive $underlineL$でデータインスタンスを選択する新しいアプローチである。
クラスタ内のEmphpseudoエラーとしてマイノリティ予測を識別し、推定エラー密度に基づいてクラスタの適応的なサンプリング予算を割り当てる。
- 参考スコア(独自算出の注目度): 15.477921200056887
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a limited labeling budget, active learning (AL) aims to sample the most
informative instances from an unlabeled pool to acquire labels for subsequent
model training. To achieve this, AL typically measures the informativeness of
unlabeled instances based on uncertainty and diversity. However, it does not
consider erroneous instances with their neighborhood error density, which have
great potential to improve the model performance. To address this limitation,
we propose $REAL$, a novel approach to select data instances with
$\underline{R}$epresentative $\underline{E}$rrors for $\underline{A}$ctive
$\underline{L}$earning. It identifies minority predictions as \emph{pseudo
errors} within a cluster and allocates an adaptive sampling budget for the
cluster based on estimated error density. Extensive experiments on five text
classification datasets demonstrate that $REAL$ consistently outperforms all
best-performing baselines regarding accuracy and F1-macro scores across a wide
range of hyperparameter settings. Our analysis also shows that $REAL$ selects
the most representative pseudo errors that match the distribution of
ground-truth errors along the decision boundary. Our code is publicly available
at https://github.com/withchencheng/ECML_PKDD_23_Real.
- Abstract(参考訳): ラベル付け予算が限られているため、active learning(al)はラベルのないプールから最も有益なインスタンスをサンプリングし、その後のモデルトレーニングのためにラベルを取得することを目的としている。
これを達成するため、ALは通常、不確実性と多様性に基づいてラベルなしのインスタンスの情報性を測定する。
しかし、モデルの性能を向上させる大きな可能性を持つ近傍誤差密度の誤例は考慮していない。
この制限に対処するために、$REAL$という新しいアプローチを提案し、$\underline{R}$epresentative $\underline{E}$rrors for $\underline{A}$ctive $\underline{L}$earning。
クラスタ内の少数派予測を 'emph{pseudo error} と識別し、推定エラー密度に基づいてクラスタの適応的なサンプリング予算を割り当てる。
5つのテキスト分類データセットの大規模な実験により、$REAL$は、幅広いハイパーパラメータ設定における精度とF1-macroスコアに関するすべての最高のパフォーマンスベースラインを一貫して上回ります。
我々の分析によると、$REAL$は決定境界に沿った地道誤差の分布と一致する最も代表的な擬似エラーを選択する。
私たちのコードはhttps://github.com/withchencheng/ECML_PKDD_23_Realで公開されています。
関連論文リスト
- Dirichlet-Based Prediction Calibration for Learning with Noisy Labels [40.78497779769083]
雑音ラベルによる学習はディープニューラルネットワーク(DNN)の一般化性能を著しく損なう
既存のアプローチでは、損失補正やサンプル選択手法によってこの問題に対処している。
そこで我々は,textitDirichlet-based Prediction (DPC) 法を解法として提案する。
論文 参考訳(メタデータ) (2024-01-13T12:33:04Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Robust Target Training for Multi-Source Domain Adaptation [110.77704026569499]
両レベル最適化に基づく新しいMSDAのためのロバスト目標訓練法(BORT$2$)を提案する。
提案手法は,大規模なDomainNetデータセットを含む3つのMSDAベンチマークにおいて,アートパフォーマンスの状態を達成している。
論文 参考訳(メタデータ) (2022-10-04T15:20:01Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Is the Performance of My Deep Network Too Good to Be True? A Direct
Approach to Estimating the Bayes Error in Binary Classification [86.32752788233913]
分類問題において、ベイズ誤差は、最先端の性能を持つ分類器を評価するための基準として用いられる。
我々はベイズ誤差推定器を提案する。そこでは,クラスの不確かさを示すラベルの平均値のみを評価できる。
我々の柔軟なアプローチは、弱い教師付きデータであってもベイズ誤差を推定できる。
論文 参考訳(メタデータ) (2022-02-01T13:22:26Z) - Coping with Label Shift via Distributionally Robust Optimisation [72.80971421083937]
分散ロバスト最適化(DRO)に基づく目的最小化モデルを提案する。
そこで我々は,提案した目的を最適化するために,大規模問題に適した勾配降下近位ミラー上昇アルゴリズムを設計し,解析する。
論文 参考訳(メタデータ) (2020-10-23T08:33:04Z) - On the Importance of Adaptive Data Collection for Extremely Imbalanced
Pairwise Tasks [94.23884467360521]
我々は、QQPとWikiQAでトレーニングされた最先端技術モデルが、現実的に不均衡なテストデータで評価された場合、それぞれ平均精度が2.4%しか持たないことを示した。
より有益なネガティブな例でバランスのとれたトレーニングデータを作成することで、アクティブラーニングは平均精度をQQPで32.5%、WikiQAで20.1%に大幅に改善する。
論文 参考訳(メタデータ) (2020-10-10T21:56:27Z) - Pretrained Generalized Autoregressive Model with Adaptive Probabilistic
Label Clusters for Extreme Multi-label Text Classification [24.665469885904145]
本稿では,APLC-XLNetと呼ばれる新しいディープラーニング手法を提案する。
我々のアプローチは、最近リリースされた一般化自己回帰事前学習モデル(XLNet)を微調整し、入力テキストの密度の高い表現を学習する。
5つのベンチマークデータセットを用いて実験を行い、我々のアプローチが新たな最先端の結果を得たことを示す。
論文 参考訳(メタデータ) (2020-07-05T20:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。