論文の概要: Entropy-based Attention Regularization Frees Unintended Bias Mitigation
from Lists
- arxiv url: http://arxiv.org/abs/2203.09192v1
- Date: Thu, 17 Mar 2022 09:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 14:48:07.733859
- Title: Entropy-based Attention Regularization Frees Unintended Bias Mitigation
from Lists
- Title(参考訳): エントロピーに基づく注意規則化はリストから意図しないバイアス除去を解放する
- Authors: Giuseppe Attanasio, Debora Nozza, Dirk Hovy, Elena Baralis
- Abstract要約: 本稿では,知識のないエントロピーに基づく注意規則化(EAR)を提案する。
EARは、モデル、タスク、予測に対するそれらの影響を特定するのに役立つため、最もバイアスを誘発する可能性のある用語である過剰適合項を明らかにしている。
- 参考スコア(独自算出の注目度): 32.01761060664898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Processing (NLP) models risk overfitting to specific terms
in the training data, thereby reducing their performance, fairness, and
generalizability. E.g., neural hate speech detection models are strongly
influenced by identity terms like gay, or women, resulting in false positives,
severe unintended bias, and lower performance. Most mitigation techniques use
lists of identity terms or samples from the target domain during training.
However, this approach requires a-priori knowledge and introduces further bias
if important terms are neglected. Instead, we propose a knowledge-free
Entropy-based Attention Regularization (EAR) to discourage overfitting to
training-specific terms. An additional objective function penalizes tokens with
low self-attention entropy. We fine-tune BERT via EAR: the resulting model
matches or exceeds state-of-the-art performance for hate speech classification
and bias metrics on three benchmark corpora in English and Italian. EAR also
reveals overfitting terms, i.e., terms most likely to induce bias, to help
identify their effect on the model, task, and predictions.
- Abstract(参考訳): 自然言語処理(NLP)モデルは、トレーニングデータの特定の用語に過度に適合し、パフォーマンス、公平性、一般化性を低下させる。
例えば、ニューラルヘイトスピーチ検出モデルはゲイや女性のようなアイデンティティ用語に強く影響され、偽陽性、重度の意図しない偏見、パフォーマンス低下をもたらす。
ほとんどの緩和テクニックは、トレーニング中にターゲットドメインのアイデンティティ用語やサンプルのリストを使用する。
しかし、このアプローチはa-prioriの知識を必要とし、重要な用語が無視された場合、さらなるバイアスをもたらす。
代わりに、知識のないエントロピーに基づく注意規則化(EAR)を提案し、トレーニング固有の用語への過度な適合を防ぐ。
追加の目的関数は、低自己着脱エントロピーでトークンをペナライズする。
我々は EAR を用いて BERT を微調整する: 結果として得られたモデルは、英語とイタリア語の3つのベンチマークコーパスにおけるヘイトスピーチ分類とバイアスメトリクスの最先端のパフォーマンスと一致または超過する。
EARはまた、モデル、タスク、予測に対するそれらの影響を特定するのに役立つため、バイアスを誘発する可能性のある用語である過剰適合項も明らかにしている。
関連論文リスト
- Are We Falling in a Middle-Intelligence Trap? An Analysis and Mitigation
of the Reversal Curse [73.65112477688353]
近年の研究では「逆の呪い」として知られる大きな言語モデルにおける現象が強調されている。
我々は、逆の呪いは特定のモデルの訓練目的の結果であると主張している。
本稿では、逆の呪いを軽減するために、新しい訓練手法BI Casual Language Modeling Optimization (BICO)を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - Causality and Independence Enhancement for Biased Node Classification [56.38828085943763]
各種グラフニューラルネットワーク(GNN)に適用可能な新しい因果性・独立性向上(CIE)フレームワークを提案する。
提案手法は,ノード表現レベルでの因果的特徴と突発的特徴を推定し,突発的相関の影響を緩和する。
我々のアプローチCIEは、GNNの性能を大幅に向上するだけでなく、最先端の debiased ノード分類法よりも優れています。
論文 参考訳(メタデータ) (2023-10-14T13:56:24Z) - ChatGPT and Simple Linguistic Inferences: Blind Spots and Blinds [51.220650412095665]
本稿では,人間にとって容易な単純な推論タスクに焦点をあてる。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
以上の結果から,モデルがこのような推論に苦慮し,中程度の精度で精度が低いことが示唆された。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Look Beyond Bias with Entropic Adversarial Data Augmentation [4.893694715581673]
ディープニューラルネットワークは、スパイラルパターンと因果パターンを区別せず、他を無視しながら最も予測的なパターンのみを学ぶ。
ネットワークをこのような刺激的なバイアスに頑健にするためにデバイアス法が開発されたが、データセットがバイアスを受けているかどうかを事前に知る必要がある。
本稿では,「隠された」因果情報がバイアス画像に含まれる場合が多いため,このようなサンプルは必ずしも必要ではない,と論じる。
論文 参考訳(メタデータ) (2023-01-10T08:25:24Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - Power of Explanations: Towards automatic debiasing in hate speech
detection [19.26084350822197]
ヘイトスピーチ検出は、自然言語処理(NLP)の現実世界における一般的なダウンストリームアプリケーションである。
本稿では,潜在的なバイアスを検出するための説明手法を頼りに,自動誤用検知(MiD)を提案する。
論文 参考訳(メタデータ) (2022-09-07T14:14:03Z) - Causal Disentanglement for Semantics-Aware Intent Learning in
Recommendation [30.85573846018658]
そこで本研究では,CaDSIと呼ばれる非バイアス・セマンティクス対応のアンタングル学習を提案する。
CaDSIは、リコメンデーションタスクの根底にある因果関係を明示的にモデル化する。
特定のアイテムコンテキストに気付く真の意図を、ユーザを遠ざけることによって、セマンティクスに気付く表現を生成する。
論文 参考訳(メタデータ) (2022-02-05T15:17:03Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Understanding and Mitigating Annotation Bias in Facial Expression
Recognition [3.325054486984015]
現存する多くの著作は、人為的なアノテーションは金本位制であり、偏見のないものと見なすことができると仮定している。
顔の表情認識に焦点をあて、実験室で制御されたデータセットと現場のデータセットのラベルバイアスを比較する。
本稿では,顔動作単位(AU)を活用し,三重項損失を対象関数に組み込むAU校正顔表情認識フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-19T05:28:07Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。