論文の概要: "Is Hate Lost in Translation?": Evaluation of Multilingual LGBTQIA+ Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2410.11230v1
- Date: Tue, 15 Oct 2024 03:24:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:48.445446
- Title: "Is Hate Lost in Translation?": Evaluation of Multilingual LGBTQIA+ Hate Speech Detection
- Title(参考訳): 「翻訳におけるヘイト・ロスは?」:多言語LGBTQIA+ヘイト・スピーチ検出の評価
- Authors: Fai Leui Chan, Duke Nguyen, Aditya Joshi,
- Abstract要約: 本稿では,複数言語にわたる大規模言語モデルのLGBTQIA+ヘイトスピーチを検出することの課題について考察する。
ゼロショットおよび微調整GPTのヘイトスピーチ検出能力について検討した。
- 参考スコア(独自算出の注目度): 2.8514881296685113
- License:
- Abstract: This paper explores the challenges of detecting LGBTQIA+ hate speech of large language models across multiple languages, including English, Italian, Chinese and (code-switched) English-Tamil, examining the impact of machine translation and whether the nuances of hate speech are preserved across translation. We examine the hate speech detection ability of zero-shot and fine-tuned GPT. Our findings indicate that: (1) English has the highest performance and the code-switching scenario of English-Tamil being the lowest, (2) fine-tuning improves performance consistently across languages whilst translation yields mixed results. Through simple experimentation with original text and machine-translated text for hate speech detection along with a qualitative error analysis, this paper sheds light on the socio-cultural nuances and complexities of languages that may not be captured by automatic translation.
- Abstract(参考訳): 本稿では,多言語多言語におけるLGBTQIA+ヘイトスピーチ検出の課題について検討し,機械翻訳の影響とヘイトスピーチのニュアンスが多言語にわたって保持されているかを検討した。
ゼロショットおよび微調整GPTのヘイトスピーチ検出能力について検討した。
その結果,(1)英語が最高性能であり,(2)英語・タミル語が最下位である場合,(2)微調整によって言語間のパフォーマンスが向上し,翻訳結果が混在することがわかった。
本論文は,ヘイトスピーチ検出のための原文と機械翻訳による簡単な実験と定性的誤り解析により,自動翻訳では捉えられない言語の社会的・文化的ニュアンスと複雑さに光を当てる。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Multilingual Auxiliary Tasks Training: Bridging the Gap between
Languages for Zero-Shot Transfer of Hate Speech Detection Models [3.97478982737167]
副タスクの微調整によって得られる言語間知識プロキシにより、ヘイトスピーチ検出モデルがどのような恩恵を受けるかを示す。
本稿では,言語間のヘイトスピーチ検出モデルのゼロショット転送を改善するために,多言語補助タスクの訓練を提案する。
論文 参考訳(メタデータ) (2022-10-24T08:26:51Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - Highly Generalizable Models for Multilingual Hate Speech Detection [0.0]
ヘイトスピーチ検出は過去10年で重要な研究課題となっている。
我々は11言語からなるデータセットをコンパイルし、組み合わせたデータとバイナリラベル(ヘイトスピーチかヘイトスピーチでないか)を解析することで、異なる解決を行う。
多言語-トレイン型モノリンガルテスト,モノリンガルトレイン型モノリンガルテスト,言語-家族型モノリンガルテストのシナリオである。
論文 参考訳(メタデータ) (2022-01-27T03:09:38Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Cross-lingual Capsule Network for Hate Speech Detection in Social Media [6.531659195805749]
本研究では,言語間のヘイトスピーチ検出タスクについて検討し,ヘイトスピーチのリソースをある言語から別の言語に適応させることによって問題に対処する。
本稿では,ヘイトスピーチのための言語間カプセルネットワーク学習モデルと追加のドメイン固有語彙意味論を組み合わせることを提案する。
私たちのモデルは、AMI@Evalita 2018とAMI@Ibereval 2018のベンチマークデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-08-06T12:53:41Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。