論文の概要: A Federated Approach to Few-Shot Hate Speech Detection for Marginalized Communities
- arxiv url: http://arxiv.org/abs/2412.04942v1
- Date: Fri, 06 Dec 2024 11:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:39.925889
- Title: A Federated Approach to Few-Shot Hate Speech Detection for Marginalized Communities
- Title(参考訳): グループ化コミュニティを対象としたFew-Shot Hate音声検出のためのフェデレートアプローチ
- Authors: Haotian Ye, Axel Wisiorek, Antonis Maronikolakis, Özge Alaçam, Hinrich Schütze,
- Abstract要約: ネット上でのヘイトスピーチは、辺境化コミュニティにとって未検討の課題だ。
本稿では,インターネット上のヘイトスピーチから身を守るためのプライバシ保護ツールを用いて,支配的言語が低リソースの社会に居住する疎外化コミュニティを提供することを目的とする。
- 参考スコア(独自算出の注目度): 43.37824420609252
- License:
- Abstract: Hate speech online remains an understudied issue for marginalized communities, and has seen rising relevance, especially in the Global South, which includes developing societies with increasing internet penetration. In this paper, we aim to provide marginalized communities living in societies where the dominant language is low-resource with a privacy-preserving tool to protect themselves from hate speech on the internet by filtering offensive content in their native languages. Our contribution in this paper is twofold: 1) we release REACT (REsponsive hate speech datasets Across ConTexts), a collection of high-quality, culture-specific hate speech detection datasets comprising seven distinct target groups in eight low-resource languages, curated by experienced data collectors; 2) we propose a solution to few-shot hate speech detection utilizing federated learning (FL), a privacy-preserving and collaborative learning approach, to continuously improve a central model that exhibits robustness when tackling different target groups and languages. By keeping the training local to the users' devices, we ensure the privacy of the users' data while benefitting from the efficiency of federated learning. Furthermore, we personalize client models to target-specific training data and evaluate their performance. Our results indicate the effectiveness of FL across different target groups, whereas the benefits of personalization on few-shot learning are not clear.
- Abstract(参考訳): ネット上でのヘイトスピーチは、辺境化社会にとって未調査の課題であり、特にインターネットの浸透が増加する社会の発展を含むグローバル・サウスでは、関連性が高まっている。
本稿では,インターネット上のヘイトスピーチから身を守るために,母国語における攻撃的コンテンツをフィルタリングすることで,プライバシ保護ツールを用いて,支配的言語が低リソースである社会に居住する疎外化コミュニティを提供することを目的とする。
この論文への私たちの貢献は2つあります。
1)REACT(Responsive hate speech datasets Across ConTexts)は,8つの低リソース言語で7つの異なるターゲットグループからなる,高品質で文化固有のヘイトスピーチ検出データセットの集合体である。
2) プライバシ保護と協調学習のアプローチであるフェデレーション学習(FL)を利用した少数ショットヘイトスピーチ検出のソリューションを提案し, 異なるターゲットグループや言語に対処する際の堅牢性を示す中心モデルを継続的に改善する。
ユーザのデバイスにトレーニングをローカルに保つことで,フェデレーション学習の効率性から恩恵を受けながら,ユーザのデータのプライバシを確保することができる。
さらに、クライアントモデルをターゲット固有のトレーニングデータにパーソナライズし、その性能を評価する。
本研究の結果から,FLを対象とするグループ間でのFLの有効性が示唆される一方,数発学習におけるパーソナライゼーションのメリットは明らかでない。
関連論文リスト
- Analysis and Detection of Multilingual Hate Speech Using Transformer
Based Deep Learning [7.332311991395427]
ヘイトスピーチの普及に伴い,NLPタスクとしての自動検出の需要が高まっている。
本研究では、Twitter、Facebook、WhatsApp、Instagramなどのソーシャルメディアにおけるヘイトスピーチを検出するために、トランスフォーマーベースのモデルを提案する。
金の標準データセットは、著名な研究者Zeerak Talat、Sara Tonelli、Melanie Siegel、Rezaul Karimから収集された。
ヘイトスピーチ検出のための提案されたモデルの成功率は、ベンガルデータセットの精度の高い既存のベースラインや最先端モデルよりも高く、英語では89%、ドイツ語では91%である。
論文 参考訳(メタデータ) (2024-01-19T20:40:23Z) - Communication-Efficient Personalized Federated Learning for
Speech-to-Text Tasks [66.78640306687227]
プライバシー保護と法的規制を満たすために、連邦学習(FL)は、音声テキスト(S2T)システムのトレーニングにおいて大きな注目を集めている。
S2Tタスクで一般的に使用されるFLアプローチ(textscFedAvg)は、通常、広範な通信オーバーヘッドに悩まされる。
我々は、クライアント側チューニングとサーバとのインタラクションのための軽量なLoRAモジュールであるtextscFedLoRA と、$k$-near を備えたグローバルモデルである textscFedMem を導入したパーソナライズされたS2Tフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T15:39:38Z) - MetaHate: A Dataset for Unifying Efforts on Hate Speech Detection [2.433983268807517]
ヘイトスピーチは、標的となる個人やコミュニティに対して、社会的、心理的、時には身体的脅威を生じさせる。
この現象に対処するための現在の計算言語学的アプローチは、トレーニングのためのラベル付きソーシャルメディアデータセットに依存している。
我々は60以上のデータセットを精査し、その関連するものをMetaHateに選択的に統合しました。
我々の発見は、既存のデータセットのより深い理解に寄与し、より堅牢で適応可能なモデルをトレーニングするための道を開いた。
論文 参考訳(メタデータ) (2024-01-12T11:54:53Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Data-Efficient Strategies for Expanding Hate Speech Detection into
Under-Resourced Languages [35.185808055004344]
殆どのヘイトスピーチデータセットは、英語のコンテンツに焦点を当てている。
より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価で時間もかかります。
我々は、ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略について検討する。
論文 参考訳(メタデータ) (2022-10-20T15:49:00Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - An Online Multilingual Hate speech Recognition System [13.87667165678441]
6つのデータセットを1つの同質なデータセットに組み合わせて分析し、3つのクラスに分類します。
ほぼリアルタイムで有効なメトリックでページを識別し、スコア付けするツールを作成し、フィードバックでモデルを再トレーニングします。
英語とヒンディー語という2つの言語モデル上での多言語モデルの競合性能を証明し、ほとんどの単言語モデルに匹敵するあるいは優れた性能をもたらす。
論文 参考訳(メタデータ) (2020-11-23T16:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。