論文の概要: Dynamically Refined Regularization for Improving Cross-corpora Hate
Speech Detection
- arxiv url: http://arxiv.org/abs/2203.12536v1
- Date: Wed, 23 Mar 2022 16:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 15:15:37.257530
- Title: Dynamically Refined Regularization for Improving Cross-corpora Hate
Speech Detection
- Title(参考訳): クロスコーパスHate音声検出のための動的精細正規化
- Authors: Tulika Bose, Nikolaos Aletras, Irina Illina, Dominique Fohr
- Abstract要約: ヘイト音声分類器は、ソースと異なるデータセットで評価した場合、かなりの性能劣化を示す。
これまでの研究は、定義済みの静的辞書から特定の用語を正規化することでこの問題を緩和しようと試みてきた。
本稿では,単語リストを動的に洗練した帰属的手法を用いて,素早い相関を自動同定し,低減する手法を提案する。
- 参考スコア(独自算出の注目度): 30.462596705180534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech classifiers exhibit substantial performance degradation when
evaluated on datasets different from the source. This is due to learning
spurious correlations between words that are not necessarily relevant to
hateful language, and hate speech labels from the training corpus. Previous
work has attempted to mitigate this problem by regularizing specific terms from
pre-defined static dictionaries. While this has been demonstrated to improve
the generalizability of classifiers, the coverage of such methods is limited
and the dictionaries require regular manual updates from human experts. In this
paper, we propose to automatically identify and reduce spurious correlations
using attribution methods with dynamic refinement of the list of terms that
need to be regularized during training. Our approach is flexible and improves
the cross-corpora performance over previous work independently and in
combination with pre-defined dictionaries.
- Abstract(参考訳): ヘイト音声分類器は、ソースと異なるデータセットで評価した場合、かなりの性能劣化を示す。
これは、必ずしもヘイトフル言語に関係しない単語と、トレーニングコーパスからヘイトスピーチラベルの間のスプリアス相関を学習しているためである。
以前の研究は、事前定義された静的辞書から特定の用語を規則化することでこの問題を緩和しようとした。
これは分類器の一般化性を改善するために実証されているが、そのような方法の適用範囲は限られており、辞書は人間の専門家による定期的な手作業による更新を必要とする。
本稿では,訓練中に正規化する必要がある用語のリストを動的に改良し,帰属法を用いてスプリアス相関を自動的に同定し,低減する手法を提案する。
当社のアプローチは柔軟で,事前定義された辞書と組み合わせて,従来の作業よりもクロスコーパスのパフォーマンスを向上する。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Generalized Time Warping Invariant Dictionary Learning for Time Series
Classification and Clustering [8.14208923345076]
動的時間ワープ(DTW)は、時間的遅延、スケーリング、変換、その他多くの時間的ミスアライメント問題を扱うために一般的に使用される。
本稿では,時変不変辞書学習アルゴリズムを提案する。
辞書学習,分類,クラスタリングの観点から,提案手法の優位性を10組の公開データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-06-30T14:18:13Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Unsupervised Semantic Variation Prediction using the Distribution of
Sibling Embeddings [17.803726860514193]
単語の意味的変化の検出は,様々なNLPアプリケーションにおいて重要な課題である。
意味表現だけではそのような意味的バリエーションを正確に捉えることはできないと我々は主張する。
対象単語の文脈的埋め込みのコホート全体を利用する手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:58:21Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - Dictionary-Assisted Supervised Contrastive Learning [0.0]
本稿では,辞書支援型教師付きコントラスト学習(DASCL)の目的について紹介する。
共通の固定トークンは、関心の概念に関連する辞書(ies)に現れるコーパス内の任意の単語を置き換える。
DASCLとクロスエントロピーは、数ショットの学習設定と社会科学応用における分類性能指標を改善する。
論文 参考訳(メタデータ) (2022-10-27T04:57:43Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Text Classification with Few Examples using Controlled Generalization [58.971750512415134]
現在の実践は、トレーニング中に見えない単語を、類似した単語とマッピングするために、事前訓練された単語埋め込みに依存している。
私たちの代替案は、未ラベルのパースコーパスから派生したスパース事前訓練された表現から始まります。
これらのベクトル上のフィードフォワードネットワークは、特に低データシナリオにおいて有効であることを示す。
論文 参考訳(メタデータ) (2020-05-18T06:04:58Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。