論文の概要: A Study on Bias Detection and Classification in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2408.07479v1
- Date: Wed, 14 Aug 2024 11:49:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 13:34:28.380126
- Title: A Study on Bias Detection and Classification in Natural Language Processing
- Title(参考訳): 自然言語処理におけるバイアス検出と分類に関する研究
- Authors: Ana Sofia Evans, Helena Moniz, Luísa Coheur,
- Abstract要約: 我々の研究の目的は、ヘイトスピーチの検出と分類のタスクにおいて、公開データセットをもっとうまく組み合わせてモデルを訓練する方法を決定することである。
我々は,これらの課題を実験の展開と合わせて議論し,異なるデータセットの組み合わせがモデルの性能に大きな影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 2.908482270923597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human biases have been shown to influence the performance of models and algorithms in various fields, including Natural Language Processing. While the study of this phenomenon is garnering focus in recent years, the available resources are still relatively scarce, often focusing on different forms or manifestations of biases. The aim of our work is twofold: 1) gather publicly-available datasets and determine how to better combine them to effectively train models in the task of hate speech detection and classification; 2) analyse the main issues with these datasets, such as scarcity, skewed resources, and reliance on non-persistent data. We discuss these issues in tandem with the development of our experiments, in which we show that the combinations of different datasets greatly impact the models' performance.
- Abstract(参考訳): 人間のバイアスは自然言語処理を含む様々な分野におけるモデルとアルゴリズムのパフォーマンスに影響を与えることが示されている。
この現象の研究は近年注目されているが、利用可能な資源は比較的乏しく、しばしば異なる形態やバイアスの顕在化に焦点を当てている。
私たちの仕事の目的は2つあります。
1) 公開データセットを収集し、それらをうまく組み合わせて、ヘイトスピーチの検出及び分類のタスクにおいて、モデルを効果的に訓練する方法を決定する。
2)これらのデータセットの主な問題、例えば不足、歪んだリソース、非永続的なデータへの依存を分析します。
我々は,これらの課題を実験の展開と合わせて議論し,異なるデータセットの組み合わせがモデルの性能に大きな影響を及ぼすことを示す。
関連論文リスト
- Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Dissecting vocabulary biases datasets through statistical testing and
automated data augmentation for artifact mitigation in Natural Language
Inference [3.154631846975021]
我々は、データセットのアーティファクトを調査し、これらの問題に対処するための戦略を開発することに重点を置いている。
文字レベルから単語レベルにまたがる複数の自動データ拡張戦略を提案する。
実験により,提案手法はモデル精度を効果的に向上し,バイアスを最大0.66%,バイアスを1.14%低減することを示した。
論文 参考訳(メタデータ) (2023-12-14T08:46:26Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Robust Task-Oriented Dialogue Generation with Contrastive Pre-training
and Adversarial Filtering [17.7709632238066]
データアーティファクトは機械学習モデルにインセンティブを与え、非伝達可能な一般化を学ぶ。
我々は、MultiWOZのような一般的なデータセットがそのようなデータアーティファクトを含んでいるかどうかを検討する。
本稿では,これらの手法を無視し,一般化可能なパターンを学習することをモデルに推奨する,対照的な学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T03:13:02Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。