論文の概要: Speech Detection Task Against Asian Hate: BERT the Central, While
Data-Centric Studies the Crucial
- arxiv url: http://arxiv.org/abs/2206.02114v1
- Date: Sun, 5 Jun 2022 07:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 10:45:05.534508
- Title: Speech Detection Task Against Asian Hate: BERT the Central, While
Data-Centric Studies the Crucial
- Title(参考訳): アジアヘイトに対する音声検出課題:BERT the Central, Data-Centric Studies the Crucial
- Authors: Xin Lian
- Abstract要約: アジア人に対する憎しみは、特に中国人の間で、アジア以外の国で強くなっている。
COVID-HATE-2022は、Twitter上の反アジアヘイトスピーチデータセットの拡張である注釈付きデータセットである。
ヘイトと非ヘイトツイートのシナリオを包括的にデータセットにまとめる。
- 参考スコア(独自算出の注目度): 1.0965065178451106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the epidemic continuing, hatred against Asians is intensifying in
countries outside Asia, especially among the Chinese. Thus, there is an urgent
need to detect and prevent hate speech toward Asians effectively. In this work,
we first create COVID-HATE-2022, an annotated dataset that is an extension of
the anti-Asian hate speech dataset on Twitter, including 2,035 annotated tweets
fetched in early February 2022, which are labeled based on specific criteria,
and we present the comprehensive collection of scenarios of hate and non-hate
tweets in the dataset. Second, we fine-tune the BERT models based on the
relevant datasets, and demonstrate strategies including 1) cleaning the
hashtags, usernames being @, URLs, and emojis before the fine-tuning process,
and 2) training with the data while validating with the "clean" data (and the
opposite) are not effective for improving performance. Third, we investigate
the performance of advanced fine-tuning strategies with 1) model-centric
approaches, such as discriminative fine-tuning, gradual unfreezing, and warmup
steps, and 2) data-centric approaches, which incorporate data trimming and data
augmenting, and show that both strategies generally improve the performance,
while data-centric ones outperform the others, which demonstrate the
feasibility and effectiveness of the data-centric approaches.
- Abstract(参考訳): 疫病の流行が続く中、アジア以外の国、特に中国人の間では、アジア人に対する憎悪が高まっている。
そのため、アジア人に対するヘイトスピーチを効果的に検出・防止する必要がある。
本研究では、まず、2022年2月初旬に取得した2,035件の注釈付きツイートを含む、Twitter上の反アジアヘイトスピーチデータセットの拡張である注釈付きデータセットであるCOVID-HATE-2022を作成し、データセットにヘイトおよび非ヘイトツイートのシナリオの包括的なコレクションを示す。
次に、関連するデータセットに基づいてBERTモデルを微調整し、戦略を含む戦略を示す。
1)微調整プロセスの前にハッシュタグ、ユーザー名が@、url、絵文字を削除。
2)「クリーン」なデータ(と反対のデータ)で検証しながらデータを使ったトレーニングは、パフォーマンスを改善するには有効ではない。
第3に,高度な微調整戦略の性能について検討する。
1)識別的微調整、段階的凍結、ウォームアップステップなどのモデル中心のアプローチ
2) データトリミングとデータ拡張を取り入れたデータ中心のアプローチでは、両戦略が一般的にパフォーマンスを向上し、一方、データ中心のアプローチは、データ中心のアプローチの有効性と有効性を示している。
関連論文リスト
- Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Noisy Self-Training with Data Augmentations for Offensive and Hate
Speech Detection Tasks [3.703767478524629]
ノイズ」自己学習アプローチには、予測整合性を確保し、敵攻撃に対する堅牢性を高めるために、データ拡張技術が組み込まれている。
2つの攻撃的/ヘイト音声データセットについて実験を行い、(i)自己学習はモデルのサイズに関わらず一貫して性能を向上し、両方のデータセットで最大1.5%F1マクロとなり、(ii)テキストデータ拡張によるノイズの多い自己学習は、同様の設定でうまく適用されているにもかかわらず、デフォルトの手法と比較して、バックトランスレーションのような最先端の手法であっても、攻撃的およびヘイト音声ドメインのパフォーマンスを低下させることを示した。
論文 参考訳(メタデータ) (2023-07-31T12:35:54Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - Parallel Augmentation and Dual Enhancement for Occluded Person
Re-identification [70.96277129480478]
被占領者の再識別(Re-ID)はここ数十年で多くの注目を集めている。
近年のアプローチは、隠蔽データの性能向上に重点を置いている。
PADE(Parallel Augmentation and Dual Enhancement)を用いた簡易かつ効果的な手法を提案する。
提案手法の有効性を検証するために, 広く使用されている3つの隠蔽データセットと2つの非隠蔽データセットの実験結果を得た。
論文 参考訳(メタデータ) (2022-10-11T13:29:38Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Data Poisoning Attacks and Defenses to Crowdsourcing Systems [26.147716118854614]
クラウドソーシングはデータ中毒攻撃に対して脆弱であることを示す。
悪意のあるクライアントは、集約されたデータを壊すために注意深く作られたデータを提供します。
悪質なクライアントの影響を減らすため、2つの防御策を提案する。
論文 参考訳(メタデータ) (2021-02-18T06:03:48Z) - Empirical Study of Text Augmentation on Social Media Text in Vietnamese [3.0938904602244355]
テキスト分類問題では、データセット内のラベルの不均衡がテキスト分類モデルの性能に影響を及ぼす。
データセットのクラス間の不均衡問題を解決するために,データ拡張手法を適用した。
増量の結果、両コーパスのF1マクロスコアは約1.5%増加する。
論文 参考訳(メタデータ) (2020-09-25T16:18:52Z) - Hate Speech Detection and Racial Bias Mitigation in Social Media based
on BERT model [1.9336815376402716]
本稿では,既存の学習済み言語モデルであるBERTに基づくヘイトスピーチ検出のための伝達学習手法を提案する。
提案したモデルは、人種差別、セクシズム、憎悪、攻撃的なコンテンツをTwitter上で注釈付けした2つの公開データセット上で評価する。
論文 参考訳(メタデータ) (2020-08-14T16:47:25Z) - Generating Counter Narratives against Online Hate Speech: Data and
Strategies [21.098614110697184]
本稿では,憎悪に対する回答を効果的に収集する方法について検討する。
銀データ生成には GPT-2 などの大規模教師なし言語モデルを用いる。
最高のアノテーション戦略/神経アーキテクチャは、専門家のバリデーション/ポスト編集の前にデータフィルタリングに使用できる。
論文 参考訳(メタデータ) (2020-04-08T19:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。