論文の概要: Detection of Offensive and Threatening Online Content in a Low Resource
Language
- arxiv url: http://arxiv.org/abs/2311.10541v1
- Date: Fri, 17 Nov 2023 14:08:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-11-20 14:33:10.957296
- Title: Detection of Offensive and Threatening Online Content in a Low Resource
Language
- Title(参考訳): 低資源言語における攻撃的・脅威的オンラインコンテンツの検出
- Authors: Fatima Muhammad Adam, Abubakar Yakubu Zandam, Isa Inuwa-Dutse
- Abstract要約: ハウサ語は主要なチャド語であり、アフリカで1億人以上の人々が話している。
オンラインプラットフォームは、しばしば、攻撃的および脅迫的な言語の使用につながる社会的相互作用を促進する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hausa is a major Chadic language, spoken by over 100 million people in
Africa. However, from a computational linguistic perspective, it is considered
a low-resource language, with limited resources to support Natural Language
Processing (NLP) tasks. Online platforms often facilitate social interactions
that can lead to the use of offensive and threatening language, which can go
undetected due to the lack of detection systems designed for Hausa. This study
aimed to address this issue by (1) conducting two user studies (n=308) to
investigate cyberbullying-related issues, (2) collecting and annotating the
first set of offensive and threatening datasets to support relevant downstream
tasks in Hausa, (3) developing a detection system to flag offensive and
threatening content, and (4) evaluating the detection system and the efficacy
of the Google-based translation engine in detecting offensive and threatening
terms in Hausa. We found that offensive and threatening content is quite
common, particularly when discussing religion and politics. Our detection
system was able to detect more than 70% of offensive and threatening content,
although many of these were mistranslated by Google's translation engine. We
attribute this to the subtle relationship between offensive and threatening
content and idiomatic expressions in the Hausa language. We recommend that
diverse stakeholders participate in understanding local conventions and
demographics in order to develop a more effective detection system. These
insights are essential for implementing targeted moderation strategies to
create a safe and inclusive online environment.
- Abstract(参考訳): ハウサ語は、アフリカで1億人を超える人々が話す主要なチャド語である。
しかし、計算言語の観点からは、自然言語処理(NLP)タスクをサポートするリソースが限られている低リソース言語と考えられている。
オンラインプラットフォームは、しばしば社会的相互作用を促進し、攻撃的で脅迫的な言語の使用につながる可能性がある。
本研究は,(1)サイバーいじめに関する2つのユーザ研究(n=308),(2)hausaの下流課題を支援するために,第1セットの攻撃および脅威データセットの収集と注釈,(3)攻撃および脅威コンテンツの検出システムの開発,(4)hausaにおける攻撃的および脅威的条件の検出におけるgoogleベースの翻訳エンジンの検出システムと効果の評価,という課題を解決することを目的とした。
特に宗教や政治に関する議論では、攻撃的で脅迫的な内容が極めて多いことが分かりました。
我々の検出システムは、攻撃的および脅迫的コンテンツの70%以上を検出できたが、その多くはgoogleの翻訳エンジンによって誤訳された。
これを,hausa言語における攻撃的・脅迫的内容と慣用的表現との微妙な関係に特徴づける。
より効果的な検出システムを開発するために、多様な利害関係者が地域の慣習や人口統計の理解に参加することを推奨する。
これらの洞察は、安全で包括的なオンライン環境を構築するためのモデレーション戦略の実装に不可欠である。
関連論文リスト
- Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。
この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文 参考訳(メタデータ) (2025-02-24T17:41:48Z) - Exploring transfer learning for Deep NLP systems on rarely annotated languages [0.0]
本論文はヒンディー語とネパール語間のPOSタグ付けにおける移動学習の適用について考察する。
ヒンディー語におけるマルチタスク学習において,ジェンダーや単数/複数タグ付けなどの補助的なタスクがPOSタグ付け精度の向上に寄与するかどうかを評価する。
論文 参考訳(メタデータ) (2024-10-15T13:33:54Z) - A multilingual dataset for offensive language and hate speech detection for hausa, yoruba and igbo languages [0.0]
本研究では,ナイジェリアの3大言語であるHausa,Yoruba,Igboにおいて,攻撃的言語検出のための新しいデータセットの開発と導入の課題に対処する。
私たちはTwitterからデータを収集し、それを手動でアノテートして、ネイティブスピーカーを使用して、3つの言語毎にデータセットを作成しました。
学習済み言語モデルを用いて、データセット中の攻撃的言語の検出の有効性を評価し、最高の性能モデルが90%の精度で達成した。
論文 参考訳(メタデータ) (2024-06-04T09:58:29Z) - Backdoor Attack on Multilingual Machine Translation [53.28390057407576]
マルチリンガル機械翻訳(MNMT)システムにはセキュリティ脆弱性がある。
攻撃者は、他の言語で悪意のある翻訳を引き起こすために、有害なデータを低リソースの言語ペアに注入する。
この種の攻撃は、低リソース設定に固有の言語の攻撃面が大きいことを考えると、特に懸念される。
論文 参考訳(メタデータ) (2024-04-03T01:32:31Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cyberbullying Detection for Low-resource Languages and Dialects: Review
of the State of the Art [0.9831489366502298]
この論文では、バングラ語、ヒンディー語、ドラヴィダ語など、23の低資源言語と方言がカバーされている。
本調査では,サイバーいじめの信頼性定義の欠如を含む,過去の研究における研究ギャップのいくつかを明らかにした。
これらの提案に基づき,バングラのチタゴニア方言におけるサイバーいじめデータセットを収集,公開する。
論文 参考訳(メタデータ) (2023-08-30T03:52:28Z) - Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts [2.406214748890827]
本稿では,Llama 2 7B-パラメーターモデルを用いて,オンライン性的捕食チャットと虐待言語の検出手法を提案する。
我々は、異なる大きさ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いてLLMを微調整する。
実験結果から,提案手法は3つの異なるデータセットに対して精度よく一貫した性能を示す。
論文 参考訳(メタデータ) (2023-08-28T16:18:50Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Abusive and Threatening Language Detection in Urdu using Boosting based
and BERT based models: A Comparative Approach [0.0]
本稿では,その共有タスクに基づいて,ウルドゥー語におけるコンテンツ検出を悪用し,脅かすための機械学習モデルについて検討する。
私たちのモデルは、それぞれF1scoreof 0.88と0.54のコンテンツ検出を嫌がらせと脅かすために、最初に導入されました。
論文 参考訳(メタデータ) (2021-11-27T20:03:19Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z) - Offensive Language Detection: A Comparative Analysis [2.5739449801033842]
本稿では,Google文エンコーダ,Fasttext,動的モード分解(DMD)に基づく機能とRandom kitchen sink(RKS)法による攻撃言語検出の有効性について検討する。
実験と評価の結果,Fastetxt を用いた RKS が競合する結果を得た。
論文 参考訳(メタデータ) (2020-01-09T17:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。