論文の概要: Detection and Analysis of Offensive Online Content in Hausa Language
- arxiv url: http://arxiv.org/abs/2311.10541v2
- Date: Fri, 07 Mar 2025 01:18:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:22:39.503505
- Title: Detection and Analysis of Offensive Online Content in Hausa Language
- Title(参考訳): ハウサ語における攻撃的オンラインコンテンツの検出と分析
- Authors: Fatima Muhammad Adam, Abubakar Yakubu Zandam, Isa Inuwa-Dutse,
- Abstract要約: ハウサ語は、主に西アフリカで1億人以上の人々が話している主要なチャド語である。
私たちはハウサ語で最初の攻撃的用語のデータセットを作成しました。
我々の検出システムは攻撃性の70%以上を特定できたが、ベースラインモデルはしばしばその用語を誤訳した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Hausa, a major Chadic language spoken by over 100 million people mostly in West Africa is considered a low-resource language from a computational linguistic perspective. This classification indicates a scarcity of linguistic resources and tools necessary for handling various natural language processing (NLP) tasks, including the detection of offensive content. To address this gap, we conducted two set of studies (1) a user study (n=101) to explore cyberbullying in Hausa and (2) an empirical study that led to the creation of the first dataset of offensive terms in the Hausa language. We developed detection systems trained on this dataset and compared their performance against relevant multilingual models, including Google Translate. Our detection system successfully identified over 70% of offensive, whereas baseline models frequently mistranslated such terms. We attribute this discrepancy to the nuanced nature of the Hausa language and the reliance of baseline models on direct or literal translation due to limited data to build purposive detection systems. These findings highlight the importance of incorporating cultural context and linguistic nuances when developing NLP models for low-resource languages such as Hausa. A post hoc analysis further revealed that offensive language is particularly prevalent in discussions related to religion and politics. To foster a safer online environment, we recommend involving diverse stakeholders with expertise in local contexts and demographics. Their insights will be crucial in developing more accurate detection systems and targeted moderation strategies that align with cultural sensitivities.
- Abstract(参考訳): ハウサ語(Hausa)は、主に西アフリカで1億人以上の人々が話している主要なチャド語であり、計算言語の観点からは低リソース言語と考えられている。
この分類は、攻撃的内容の検出を含む様々な自然言語処理(NLP)タスクを扱うのに必要な言語資源やツールの不足を示している。
このギャップに対処するため,我々は,ハウサ語でサイバーいじめを調査するためのユーザスタディ(n=101)と,ハウサ語で最初の攻撃的用語データセットの作成に繋がる経験的研究の2つの研究を行った。
このデータセットに基づいてトレーニングされた検出システムを開発し、その性能をGoogle Translateを含む関連する多言語モデルと比較した。
我々の検出システムは攻撃性の70%以上を特定できたが、ベースラインモデルはしばしばその用語を誤訳した。
我々は,この不一致を,Hausa言語のニュアンスな性質と,限られたデータによる直接翻訳やリテラル翻訳に基づくベースラインモデルに依存して,パーポーブ検出システムを構築することに起因する。
これらの知見は,Hausaなどの低リソース言語のためのNLPモデルを開発する上で,文化的文脈と言語ニュアンスを取り入れることの重要性を強調した。
ポストホック分析により、特に宗教や政治に関する議論で攻撃的な言語が一般的であることが明らかにされた。
より安全なオンライン環境を育むために、ローカルな状況や人口統計学の専門知識を持つ多様な利害関係者を巻き込むことを推奨する。
彼らの洞察は、より正確な検知システムや、文化的感受性に合わせたモデレーション戦略の開発に不可欠である。
関連論文リスト
- Backdoor Attack on Multilingual Machine Translation [53.28390057407576]
マルチリンガル機械翻訳(MNMT)システムにはセキュリティ脆弱性がある。
攻撃者は、他の言語で悪意のある翻訳を引き起こすために、有害なデータを低リソースの言語ペアに注入する。
この種の攻撃は、低リソース設定に固有の言語の攻撃面が大きいことを考えると、特に懸念される。
論文 参考訳(メタデータ) (2024-04-03T01:32:31Z) - Cyberbullying Detection for Low-resource Languages and Dialects: Review
of the State of the Art [0.9831489366502298]
この論文では、バングラ語、ヒンディー語、ドラヴィダ語など、23の低資源言語と方言がカバーされている。
本調査では,サイバーいじめの信頼性定義の欠如を含む,過去の研究における研究ギャップのいくつかを明らかにした。
これらの提案に基づき,バングラのチタゴニア方言におけるサイバーいじめデータセットを収集,公開する。
論文 参考訳(メタデータ) (2023-08-30T03:52:28Z) - Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts [2.406214748890827]
本稿では,Llama 2 7B-パラメーターモデルを用いて,オンライン性的捕食チャットと虐待言語の検出手法を提案する。
我々は、異なる大きさ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いてLLMを微調整する。
実験結果から,提案手法は3つの異なるデータセットに対して精度よく一貫した性能を示す。
論文 参考訳(メタデータ) (2023-08-28T16:18:50Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Abusive and Threatening Language Detection in Urdu using Boosting based
and BERT based models: A Comparative Approach [0.0]
本稿では,その共有タスクに基づいて,ウルドゥー語におけるコンテンツ検出を悪用し,脅かすための機械学習モデルについて検討する。
私たちのモデルは、それぞれF1scoreof 0.88と0.54のコンテンツ検出を嫌がらせと脅かすために、最初に導入されました。
論文 参考訳(メタデータ) (2021-11-27T20:03:19Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z) - Offensive Language Detection: A Comparative Analysis [2.5739449801033842]
本稿では,Google文エンコーダ,Fasttext,動的モード分解(DMD)に基づく機能とRandom kitchen sink(RKS)法による攻撃言語検出の有効性について検討する。
実験と評価の結果,Fastetxt を用いた RKS が競合する結果を得た。
論文 参考訳(メタデータ) (2020-01-09T17:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。