論文の概要: Detection of Offensive and Threatening Online Content in a Low Resource
Language
- arxiv url: http://arxiv.org/abs/2311.10541v1
- Date: Fri, 17 Nov 2023 14:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-20 14:33:10.957296
- Title: Detection of Offensive and Threatening Online Content in a Low Resource
Language
- Title(参考訳): 低資源言語における攻撃的・脅威的オンラインコンテンツの検出
- Authors: Fatima Muhammad Adam, Abubakar Yakubu Zandam, Isa Inuwa-Dutse
- Abstract要約: ハウサ語は主要なチャド語であり、アフリカで1億人以上の人々が話している。
オンラインプラットフォームは、しばしば、攻撃的および脅迫的な言語の使用につながる社会的相互作用を促進する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hausa is a major Chadic language, spoken by over 100 million people in
Africa. However, from a computational linguistic perspective, it is considered
a low-resource language, with limited resources to support Natural Language
Processing (NLP) tasks. Online platforms often facilitate social interactions
that can lead to the use of offensive and threatening language, which can go
undetected due to the lack of detection systems designed for Hausa. This study
aimed to address this issue by (1) conducting two user studies (n=308) to
investigate cyberbullying-related issues, (2) collecting and annotating the
first set of offensive and threatening datasets to support relevant downstream
tasks in Hausa, (3) developing a detection system to flag offensive and
threatening content, and (4) evaluating the detection system and the efficacy
of the Google-based translation engine in detecting offensive and threatening
terms in Hausa. We found that offensive and threatening content is quite
common, particularly when discussing religion and politics. Our detection
system was able to detect more than 70% of offensive and threatening content,
although many of these were mistranslated by Google's translation engine. We
attribute this to the subtle relationship between offensive and threatening
content and idiomatic expressions in the Hausa language. We recommend that
diverse stakeholders participate in understanding local conventions and
demographics in order to develop a more effective detection system. These
insights are essential for implementing targeted moderation strategies to
create a safe and inclusive online environment.
- Abstract(参考訳): ハウサ語は、アフリカで1億人を超える人々が話す主要なチャド語である。
しかし、計算言語の観点からは、自然言語処理(NLP)タスクをサポートするリソースが限られている低リソース言語と考えられている。
オンラインプラットフォームは、しばしば社会的相互作用を促進し、攻撃的で脅迫的な言語の使用につながる可能性がある。
本研究は,(1)サイバーいじめに関する2つのユーザ研究(n=308),(2)hausaの下流課題を支援するために,第1セットの攻撃および脅威データセットの収集と注釈,(3)攻撃および脅威コンテンツの検出システムの開発,(4)hausaにおける攻撃的および脅威的条件の検出におけるgoogleベースの翻訳エンジンの検出システムと効果の評価,という課題を解決することを目的とした。
特に宗教や政治に関する議論では、攻撃的で脅迫的な内容が極めて多いことが分かりました。
我々の検出システムは、攻撃的および脅迫的コンテンツの70%以上を検出できたが、その多くはgoogleの翻訳エンジンによって誤訳された。
これを,hausa言語における攻撃的・脅迫的内容と慣用的表現との微妙な関係に特徴づける。
より効果的な検出システムを開発するために、多様な利害関係者が地域の慣習や人口統計の理解に参加することを推奨する。
これらの洞察は、安全で包括的なオンライン環境を構築するためのモデレーション戦略の実装に不可欠である。
関連論文リスト
- Backdoor Attack on Multilingual Machine Translation [53.28390057407576]
マルチリンガル機械翻訳(MNMT)システムにはセキュリティ脆弱性がある。
攻撃者は、他の言語で悪意のある翻訳を引き起こすために、有害なデータを低リソースの言語ペアに注入する。
この種の攻撃は、低リソース設定に固有の言語の攻撃面が大きいことを考えると、特に懸念される。
論文 参考訳(メタデータ) (2024-04-03T01:32:31Z) - Cyberbullying Detection for Low-resource Languages and Dialects: Review
of the State of the Art [0.9831489366502298]
この論文では、バングラ語、ヒンディー語、ドラヴィダ語など、23の低資源言語と方言がカバーされている。
本調査では,サイバーいじめの信頼性定義の欠如を含む,過去の研究における研究ギャップのいくつかを明らかにした。
これらの提案に基づき,バングラのチタゴニア方言におけるサイバーいじめデータセットを収集,公開する。
論文 参考訳(メタデータ) (2023-08-30T03:52:28Z) - Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts [2.406214748890827]
本稿では,Llama 2 7B-パラメーターモデルを用いて,オンライン性的捕食チャットと虐待言語の検出手法を提案する。
我々は、異なる大きさ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いてLLMを微調整する。
実験結果から,提案手法は3つの異なるデータセットに対して精度よく一貫した性能を示す。
論文 参考訳(メタデータ) (2023-08-28T16:18:50Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Abusive and Threatening Language Detection in Urdu using Boosting based
and BERT based models: A Comparative Approach [0.0]
本稿では,その共有タスクに基づいて,ウルドゥー語におけるコンテンツ検出を悪用し,脅かすための機械学習モデルについて検討する。
私たちのモデルは、それぞれF1scoreof 0.88と0.54のコンテンツ検出を嫌がらせと脅かすために、最初に導入されました。
論文 参考訳(メタデータ) (2021-11-27T20:03:19Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z) - Offensive Language Detection: A Comparative Analysis [2.5739449801033842]
本稿では,Google文エンコーダ,Fasttext,動的モード分解(DMD)に基づく機能とRandom kitchen sink(RKS)法による攻撃言語検出の有効性について検討する。
実験と評価の結果,Fastetxt を用いた RKS が競合する結果を得た。
論文 参考訳(メタデータ) (2020-01-09T17:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。