論文の概要: D-CALM: A Dynamic Clustering-based Active Learning Approach for
Mitigating Bias
- arxiv url: http://arxiv.org/abs/2305.17013v1
- Date: Fri, 26 May 2023 15:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 13:57:30.535085
- Title: D-CALM: A Dynamic Clustering-based Active Learning Approach for
Mitigating Bias
- Title(参考訳): D-CALM: 動的クラスタリングに基づくバイアス緩和のためのアクティブラーニングアプローチ
- Authors: Sabit Hassan and Malihe Alikhani
- Abstract要約: 本稿では,クラスタリングとアノテーションを動的に調整する適応型クラスタリングに基づく能動的学習アルゴリズムD-CALMを提案する。
感情,ヘイトスピーチ,ダイアログ行為,書籍型検出など,多種多様なテキスト分類タスクのための8つのデータセットの実験により,提案アルゴリズムがベースラインALアプローチを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 13.008323851750442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements, NLP models continue to be vulnerable to bias.
This bias often originates from the uneven distribution of real-world data and
can propagate through the annotation process. Escalated integration of these
models in our lives calls for methods to mitigate bias without overbearing
annotation costs. While active learning (AL) has shown promise in training
models with a small amount of annotated data, AL's reliance on the model's
behavior for selective sampling can lead to an accumulation of unwanted bias
rather than bias mitigation. However, infusing clustering with AL can overcome
the bias issue of both AL and traditional annotation methods while exploiting
AL's annotation efficiency. In this paper, we propose a novel adaptive
clustering-based active learning algorithm, D-CALM, that dynamically adjusts
clustering and annotation efforts in response to an estimated classifier
error-rate. Experiments on eight datasets for a diverse set of text
classification tasks, including emotion, hatespeech, dialog act, and book type
detection, demonstrate that our proposed algorithm significantly outperforms
baseline AL approaches with both pretrained transformers and traditional
Support Vector Machines. D-CALM showcases robustness against different measures
of information gain and, as evident from our analysis of label and error
distribution, can significantly reduce unwanted model bias.
- Abstract(参考訳): 最近の進歩にもかかわらず、NLPモデルはバイアスに弱いままである。
このバイアスは、しばしば現実世界のデータの不均一な分布から生じ、アノテーションプロセスを通じて伝播する。
私たちの生活におけるこれらのモデルの統合は、アノテーションのコストを過大評価することなくバイアスを軽減する方法を求めている。
アクティブラーニング(AL)は、少量の注釈付きデータを持つトレーニングモデルにおいて有望であるが、選択的サンプリングに対するモデルの振る舞いへの依存は、バイアス軽減よりも望ましくないバイアスの蓄積につながる可能性がある。
しかし、ALによるクラスタリングは、ALのアノテーション効率を利用して、ALおよび従来のアノテーションメソッドのバイアス問題を克服することができる。
本稿では,推定された分類器誤り率に応じて動的にクラスタリングとアノテーションを調整できる適応型クラスタリングに基づくアクティブラーニングアルゴリズムd-calmを提案する。
感情,ヘイトスピーチ,ダイアログアクト,書籍タイプ検出など,さまざまなテキスト分類タスクのための8つのデータセットの実験により,提案アルゴリズムは,事前学習されたトランスフォーマーと従来のサポートベクトルマシンの両方で,ベースラインALアプローチを著しく上回ることを示した。
D-CALMは情報ゲインの異なる尺度に対する堅牢性を示し、ラベルと誤差分布の分析から明らかなように、不要なモデルバイアスを著しく低減することができる。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Taming Small-sample Bias in Low-budget Active Learning [20.900107811622803]
ファースバイアス低減は、モデルトレーニングプロセス中のバイアスを確実に低減することができるが、その係数が学習の進行に適応しない場合、学習を妨げる可能性がある。
本稿では,学習プロセスに適応する係数を自動的に調整できるカリキュラムFirth bias reduction (CHAIN)を提案する。
論文 参考訳(メタデータ) (2023-06-19T16:42:11Z) - Controlling Learned Effects to Reduce Spurious Correlations in Text
Classifiers [6.662800021628275]
本稿では,特徴の学習効果をモデルで予測し,特徴がラベルに与える影響を推定するアルゴリズムを提案する。
毒性とIMDBレビューデータセットについて、提案アルゴリズムは、突発的な相関を最小化し、マイノリティグループを改善する。
論文 参考訳(メタデータ) (2023-05-26T12:15:54Z) - Rethinking Precision of Pseudo Label: Test-Time Adaptation via
Complementary Learning [10.396596055773012]
本稿では,テスト時間適応性を高めるための新しい補完学習手法を提案する。
テスト時適応タスクでは、ソースドメインからの情報は通常利用できない。
我々は,相補ラベルのリスク関数がバニラ損失式と一致することを強調した。
論文 参考訳(メタデータ) (2023-01-15T03:36:33Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Task-agnostic Continual Learning with Hybrid Probabilistic Models [75.01205414507243]
分類のための連続学習のためのハイブリッド生成識別手法であるHCLを提案する。
フローは、データの配布を学習し、分類を行い、タスクの変更を特定し、忘れることを避けるために使用される。
本研究では,スプリット-MNIST,スプリット-CIFAR,SVHN-MNISTなどの連続学習ベンチマークにおいて,HCLの強い性能を示す。
論文 参考訳(メタデータ) (2021-06-24T05:19:26Z) - ALEX: Active Learning based Enhancement of a Model's Explainability [34.26945469627691]
アクティブラーニング(AL)アルゴリズムは、最小限のラベル付き例をブートストラップ方式で効率的な分類器を構築しようとする。
データ駆動学習の時代において、これは追求すべき重要な研究方向である。
本稿では,モデルの有効性に加えて,ブートストラップ段階におけるモデルの解釈可能性の向上も目指すAL選択関数の開発に向けた取り組みについて述べる。
論文 参考訳(メタデータ) (2020-09-02T07:15:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。