論文の概要: D-CALM: A Dynamic Clustering-based Active Learning Approach for
Mitigating Bias
- arxiv url: http://arxiv.org/abs/2305.17013v1
- Date: Fri, 26 May 2023 15:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 13:57:30.535085
- Title: D-CALM: A Dynamic Clustering-based Active Learning Approach for
Mitigating Bias
- Title(参考訳): D-CALM: 動的クラスタリングに基づくバイアス緩和のためのアクティブラーニングアプローチ
- Authors: Sabit Hassan and Malihe Alikhani
- Abstract要約: 本稿では,クラスタリングとアノテーションを動的に調整する適応型クラスタリングに基づく能動的学習アルゴリズムD-CALMを提案する。
感情,ヘイトスピーチ,ダイアログ行為,書籍型検出など,多種多様なテキスト分類タスクのための8つのデータセットの実験により,提案アルゴリズムがベースラインALアプローチを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 13.008323851750442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements, NLP models continue to be vulnerable to bias.
This bias often originates from the uneven distribution of real-world data and
can propagate through the annotation process. Escalated integration of these
models in our lives calls for methods to mitigate bias without overbearing
annotation costs. While active learning (AL) has shown promise in training
models with a small amount of annotated data, AL's reliance on the model's
behavior for selective sampling can lead to an accumulation of unwanted bias
rather than bias mitigation. However, infusing clustering with AL can overcome
the bias issue of both AL and traditional annotation methods while exploiting
AL's annotation efficiency. In this paper, we propose a novel adaptive
clustering-based active learning algorithm, D-CALM, that dynamically adjusts
clustering and annotation efforts in response to an estimated classifier
error-rate. Experiments on eight datasets for a diverse set of text
classification tasks, including emotion, hatespeech, dialog act, and book type
detection, demonstrate that our proposed algorithm significantly outperforms
baseline AL approaches with both pretrained transformers and traditional
Support Vector Machines. D-CALM showcases robustness against different measures
of information gain and, as evident from our analysis of label and error
distribution, can significantly reduce unwanted model bias.
- Abstract(参考訳): 最近の進歩にもかかわらず、NLPモデルはバイアスに弱いままである。
このバイアスは、しばしば現実世界のデータの不均一な分布から生じ、アノテーションプロセスを通じて伝播する。
私たちの生活におけるこれらのモデルの統合は、アノテーションのコストを過大評価することなくバイアスを軽減する方法を求めている。
アクティブラーニング(AL)は、少量の注釈付きデータを持つトレーニングモデルにおいて有望であるが、選択的サンプリングに対するモデルの振る舞いへの依存は、バイアス軽減よりも望ましくないバイアスの蓄積につながる可能性がある。
しかし、ALによるクラスタリングは、ALのアノテーション効率を利用して、ALおよび従来のアノテーションメソッドのバイアス問題を克服することができる。
本稿では,推定された分類器誤り率に応じて動的にクラスタリングとアノテーションを調整できる適応型クラスタリングに基づくアクティブラーニングアルゴリズムd-calmを提案する。
感情,ヘイトスピーチ,ダイアログアクト,書籍タイプ検出など,さまざまなテキスト分類タスクのための8つのデータセットの実験により,提案アルゴリズムは,事前学習されたトランスフォーマーと従来のサポートベクトルマシンの両方で,ベースラインALアプローチを著しく上回ることを示した。
D-CALMは情報ゲインの異なる尺度に対する堅牢性を示し、ラベルと誤差分布の分析から明らかなように、不要なモデルバイアスを著しく低減することができる。
関連論文リスト
- DISCO: DISCovering Overfittings as Causal Rules for Text Classification Models [6.369258625916601]
ポストホックの解釈可能性法は、モデルの意思決定プロセスを完全に捉えるのに失敗する。
本稿では,グローバルなルールベースの説明を見つけるための新しい手法であるdisCOを紹介する。
DISCOは対話的な説明をサポートし、人間の検査者がルールベースの出力で突発的な原因を区別できるようにする。
論文 参考訳(メタデータ) (2024-11-07T12:12:44Z) - MeLIAD: Interpretable Few-Shot Anomaly Detection with Metric Learning and Entropy-based Scoring [2.394081903745099]
本稿では,新たな異常検出手法であるMeLIADを提案する。
MeLIADはメートル法学習に基づいており、真の異常の事前分布仮定に頼ることなく、設計による解釈可能性を達成する。
解釈可能性の定量的かつ定性的な評価を含む5つの公開ベンチマークデータセットの実験は、MeLIADが異常検出とローカライゼーション性能の改善を達成することを実証している。
論文 参考訳(メタデータ) (2024-09-20T16:01:43Z) - DIVE: Subgraph Disagreement for Graph Out-of-Distribution Generalization [44.291382840373]
本稿では,グラフ機械学習におけるアウト・オブ・ディストリビューションの一般化の課題に対処する。
従来のグラフ学習アルゴリズムは、この仮定が失敗する現実世界のシナリオで失敗する。
この準最適性能に寄与する主な要因は、ニューラルネットワークの本質的な単純さバイアスである。
論文 参考訳(メタデータ) (2024-08-08T12:08:55Z) - DECIDER: Leveraging Foundation Model Priors for Improved Model Failure Detection and Explanation [18.77296551727931]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) の先行情報を利用した画像モデルの故障検出手法であるDECIDERを提案する。
DECIDERは一貫して最先端の故障検出性能を達成し、マシューズ相関係数全体のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-08-01T07:08:11Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Taming Small-sample Bias in Low-budget Active Learning [20.900107811622803]
ファースバイアス低減は、モデルトレーニングプロセス中のバイアスを確実に低減することができるが、その係数が学習の進行に適応しない場合、学習を妨げる可能性がある。
本稿では,学習プロセスに適応する係数を自動的に調整できるカリキュラムFirth bias reduction (CHAIN)を提案する。
論文 参考訳(メタデータ) (2023-06-19T16:42:11Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Task-agnostic Continual Learning with Hybrid Probabilistic Models [75.01205414507243]
分類のための連続学習のためのハイブリッド生成識別手法であるHCLを提案する。
フローは、データの配布を学習し、分類を行い、タスクの変更を特定し、忘れることを避けるために使用される。
本研究では,スプリット-MNIST,スプリット-CIFAR,SVHN-MNISTなどの連続学習ベンチマークにおいて,HCLの強い性能を示す。
論文 参考訳(メタデータ) (2021-06-24T05:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。