論文の概要: Modeling Profanity and Hate Speech in Social Media with Semantic
Subspaces
- arxiv url: http://arxiv.org/abs/2106.07505v1
- Date: Mon, 14 Jun 2021 15:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:10:28.964251
- Title: Modeling Profanity and Hate Speech in Social Media with Semantic
Subspaces
- Title(参考訳): 意味サブスペースを用いたソーシャルメディアにおける嫌悪とヘイトスピーチのモデル化
- Authors: Vanessa Hahn, Dana Ruiter, Thomas Kleinbauer, Dietrich Klakow
- Abstract要約: 特に英語以外の言語では、憎しみの言葉と憎しみの検知は、データの拡散に悩まされる。
代名詞部分空間を単語と文表現で識別し,その一般化能力を探求する。
類似したタスクと遠方のタスク、およびすべての言語において、サブスペースベースの表現は標準のBERT表現よりも効果的に転送される。
- 参考スコア(独自算出の注目度): 15.457286059556393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate speech and profanity detection suffer from data sparsity, especially for
languages other than English, due to the subjective nature of the tasks and the
resulting annotation incompatibility of existing corpora. In this study, we
identify profane subspaces in word and sentence representations and explore
their generalization capability on a variety of similar and distant target
tasks in a zero-shot setting. This is done monolingually (German) and
cross-lingually to closely-related (English), distantly-related (French) and
non-related (Arabic) tasks. We observe that, on both similar and distant target
tasks and across all languages, the subspace-based representations transfer
more effectively than standard BERT representations in the zero-shot setting,
with improvements between F1 +10.9 and F1 +42.9 over the baselines across all
tested monolingual and cross-lingual scenarios.
- Abstract(参考訳): 特に英語以外の言語では、タスクの主観的な性質と既存のコーパスの注釈の互換性が原因で、憎しみの言葉や誇張検出はデータ疎結合に悩まされる。
本研究では,単語と文の表現における代名詞部分空間を同定し,その一般化能力について,ゼロショット設定で検討する。
これはモノリンガル語(ドイツ語)と、近縁語(英語)、遠縁語(フランス語)、非関連語(アラビア語)のタスクと交互に行われる。
類似のタスクと遠方のタスクの両方、および全ての言語において、サブスペースベースの表現はゼロショット設定の標準bert表現よりも効果的に転送され、テストされた全ての単言語およびクロスリンガルシナリオのベースラインよりもf1 +10.9とf1 +42.9が改善された。
関連論文リスト
- 1-800-SHARED-TASKS @ NLU of Devanagari Script Languages: Detection of Language, Hate Speech, and Targets using LLMs [0.0]
本稿では,CHiPSAL 2025共有タスクの入力に関する詳細なシステム記述について述べる。
本稿では,Devanagariスクリプト言語における言語検出,ヘイトスピーチ識別,ターゲット検出に焦点をあてる。
論文 参考訳(メタデータ) (2024-11-11T10:34:36Z) - Discovering Low-rank Subspaces for Language-agnostic Multilingual
Representations [38.56175462620892]
ML-LM(ML-LM)は,ゼロショット言語間移動の顕著な能力を示す。
多言語埋め込み空間から言語固有の要素を投影する新しい視点を提案する。
本手法を適用すれば,ML-LMよりも一貫した改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-01-11T09:54:11Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Multilingual Auxiliary Tasks Training: Bridging the Gap between
Languages for Zero-Shot Transfer of Hate Speech Detection Models [3.97478982737167]
副タスクの微調整によって得られる言語間知識プロキシにより、ヘイトスピーチ検出モデルがどのような恩恵を受けるかを示す。
本稿では,言語間のヘイトスピーチ検出モデルのゼロショット転送を改善するために,多言語補助タスクの訓練を提案する。
論文 参考訳(メタデータ) (2022-10-24T08:26:51Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - Cross-lingual Capsule Network for Hate Speech Detection in Social Media [6.531659195805749]
本研究では,言語間のヘイトスピーチ検出タスクについて検討し,ヘイトスピーチのリソースをある言語から別の言語に適応させることによって問題に対処する。
本稿では,ヘイトスピーチのための言語間カプセルネットワーク学習モデルと追加のドメイン固有語彙意味論を組み合わせることを提案する。
私たちのモデルは、AMI@Evalita 2018とAMI@Ibereval 2018のベンチマークデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-08-06T12:53:41Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。