論文の概要: Speech Detection Task Against Asian Hate: BERT the Central, While
Data-Centric Studies the Crucial
- arxiv url: http://arxiv.org/abs/2206.02114v1
- Date: Sun, 5 Jun 2022 07:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-11 10:45:05.534508
- Title: Speech Detection Task Against Asian Hate: BERT the Central, While
Data-Centric Studies the Crucial
- Title(参考訳): アジアヘイトに対する音声検出課題:BERT the Central, Data-Centric Studies the Crucial
- Authors: Xin Lian
- Abstract要約: アジア人に対する憎しみは、特に中国人の間で、アジア以外の国で強くなっている。
COVID-HATE-2022は、Twitter上の反アジアヘイトスピーチデータセットの拡張である注釈付きデータセットである。
ヘイトと非ヘイトツイートのシナリオを包括的にデータセットにまとめる。
- 参考スコア(独自算出の注目度): 1.0965065178451106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the epidemic continuing, hatred against Asians is intensifying in
countries outside Asia, especially among the Chinese. Thus, there is an urgent
need to detect and prevent hate speech toward Asians effectively. In this work,
we first create COVID-HATE-2022, an annotated dataset that is an extension of
the anti-Asian hate speech dataset on Twitter, including 2,035 annotated tweets
fetched in early February 2022, which are labeled based on specific criteria,
and we present the comprehensive collection of scenarios of hate and non-hate
tweets in the dataset. Second, we fine-tune the BERT models based on the
relevant datasets, and demonstrate strategies including 1) cleaning the
hashtags, usernames being @, URLs, and emojis before the fine-tuning process,
and 2) training with the data while validating with the "clean" data (and the
opposite) are not effective for improving performance. Third, we investigate
the performance of advanced fine-tuning strategies with 1) model-centric
approaches, such as discriminative fine-tuning, gradual unfreezing, and warmup
steps, and 2) data-centric approaches, which incorporate data trimming and data
augmenting, and show that both strategies generally improve the performance,
while data-centric ones outperform the others, which demonstrate the
feasibility and effectiveness of the data-centric approaches.
- Abstract(参考訳): 疫病の流行が続く中、アジア以外の国、特に中国人の間では、アジア人に対する憎悪が高まっている。
そのため、アジア人に対するヘイトスピーチを効果的に検出・防止する必要がある。
本研究では、まず、2022年2月初旬に取得した2,035件の注釈付きツイートを含む、Twitter上の反アジアヘイトスピーチデータセットの拡張である注釈付きデータセットであるCOVID-HATE-2022を作成し、データセットにヘイトおよび非ヘイトツイートのシナリオの包括的なコレクションを示す。
次に、関連するデータセットに基づいてBERTモデルを微調整し、戦略を含む戦略を示す。
1)微調整プロセスの前にハッシュタグ、ユーザー名が@、url、絵文字を削除。
2)「クリーン」なデータ(と反対のデータ)で検証しながらデータを使ったトレーニングは、パフォーマンスを改善するには有効ではない。
第3に,高度な微調整戦略の性能について検討する。
1)識別的微調整、段階的凍結、ウォームアップステップなどのモデル中心のアプローチ
2) データトリミングとデータ拡張を取り入れたデータ中心のアプローチでは、両戦略が一般的にパフォーマンスを向上し、一方、データ中心のアプローチは、データ中心のアプローチの有効性と有効性を示している。
関連論文リスト
- A Target-Aware Analysis of Data Augmentation for Hate Speech Detection [3.858155067958448]
ヘイトスピーチは、ソーシャルネットワークの普及によって引き起こされる主要な脅威の1つだ。
本稿では,既存のデータを生成言語モデルで拡張し,ターゲットの不均衡を低減する可能性を検討する。
起源、宗教、障害などのヘイトカテゴリーでは、トレーニングのための強化データを用いたヘイトスピーチ分類は、拡張ベースラインが存在しない場合、10%以上のF1が向上する。
論文 参考訳(メタデータ) (2024-10-10T15:46:27Z) - IndoToxic2024: A Demographically-Enriched Dataset of Hate Speech and Toxicity Types for Indonesian Language [11.463652750122398]
IndoToxic2024はインドネシアのヘイトスピーチおよび毒性分類データセットである。
19の個人によって注釈付けされた43,692のエントリを補完するデータセットは、脆弱なグループをターゲットにしたテキストに焦点を当てている。
我々は、7つの二項分類タスクのベースラインを確立し、憎悪音声分類のために細調整されたBERTモデルを用いてマクロF1スコア0.78を達成する。
論文 参考訳(メタデータ) (2024-06-27T17:26:38Z) - When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective [64.73162159837956]
ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
論文 参考訳(メタデータ) (2023-11-23T17:13:37Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Parallel Augmentation and Dual Enhancement for Occluded Person
Re-identification [70.96277129480478]
被占領者の再識別(Re-ID)はここ数十年で多くの注目を集めている。
近年のアプローチは、隠蔽データの性能向上に重点を置いている。
PADE(Parallel Augmentation and Dual Enhancement)を用いた簡易かつ効果的な手法を提案する。
提案手法の有効性を検証するために, 広く使用されている3つの隠蔽データセットと2つの非隠蔽データセットの実験結果を得た。
論文 参考訳(メタデータ) (2022-10-11T13:29:38Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Data Poisoning Attacks and Defenses to Crowdsourcing Systems [26.147716118854614]
クラウドソーシングはデータ中毒攻撃に対して脆弱であることを示す。
悪意のあるクライアントは、集約されたデータを壊すために注意深く作られたデータを提供します。
悪質なクライアントの影響を減らすため、2つの防御策を提案する。
論文 参考訳(メタデータ) (2021-02-18T06:03:48Z) - Empirical Study of Text Augmentation on Social Media Text in Vietnamese [3.0938904602244355]
テキスト分類問題では、データセット内のラベルの不均衡がテキスト分類モデルの性能に影響を及ぼす。
データセットのクラス間の不均衡問題を解決するために,データ拡張手法を適用した。
増量の結果、両コーパスのF1マクロスコアは約1.5%増加する。
論文 参考訳(メタデータ) (2020-09-25T16:18:52Z) - Generating Counter Narratives against Online Hate Speech: Data and
Strategies [21.098614110697184]
本稿では,憎悪に対する回答を効果的に収集する方法について検討する。
銀データ生成には GPT-2 などの大規模教師なし言語モデルを用いる。
最高のアノテーション戦略/神経アーキテクチャは、専門家のバリデーション/ポスト編集の前にデータフィルタリングに使用できる。
論文 参考訳(メタデータ) (2020-04-08T19:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。