論文の概要: Chinese Offensive Language Detection:Current Status and Future Directions
- arxiv url: http://arxiv.org/abs/2403.18314v2
- Date: Thu, 28 Mar 2024 05:27:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 10:49:40.371839
- Title: Chinese Offensive Language Detection:Current Status and Future Directions
- Title(参考訳): 中国語の攻撃的言語検出:現状と今後の方向性
- Authors: Yunze Xiao, Houda Bouamor, Wajdi Zaghouani,
- Abstract要約: 本稿では,中国語における攻撃的言語検出について概観し,現在のベンチマークとアプローチについて検討する。
本調査の主な目的は,既存の技術を探究し,今後の研究の道筋を明らかにすることである。
- 参考スコア(独自算出の注目度): 2.1357786131968637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the considerable efforts being made to monitor and regulate user-generated content on social media platforms, the pervasiveness of offensive language, such as hate speech or cyberbullying, in the digital space remains a significant challenge. Given the importance of maintaining a civilized and respectful online environment, there is an urgent and growing need for automatic systems capable of detecting offensive speech in real time. However, developing effective systems for processing languages such as Chinese presents a significant challenge, owing to the language's complex and nuanced nature, which makes it difficult to process automatically. This paper provides a comprehensive overview of offensive language detection in Chinese, examining current benchmarks and approaches and highlighting specific models and tools for addressing the unique challenges of detecting offensive language in this complex language. The primary objective of this survey is to explore the existing techniques and identify potential avenues for further research that can address the cultural and linguistic complexities of Chinese.
- Abstract(参考訳): ソーシャルメディアプラットフォーム上でユーザー生成コンテンツを監視・規制するためのかなりの努力にもかかわらず、ヘイトスピーチやサイバーいじめのような攻撃的な言語がデジタル空間に広まることは大きな課題である。
文明化され、尊敬されるオンライン環境を維持することの重要性を考えると、攻撃的な音声をリアルタイムで検出できる自動システムの必要性は急速に高まっている。
しかし、中国語などの言語処理に有効なシステムを開発することは、言語が複雑でニュアンスに富んだ性質のため重要な課題であり、自動処理が困難である。
本稿では、中国語における攻撃的言語検出の総合的な概要、現在のベンチマークとアプローチ、この複雑な言語における攻撃的言語検出の独特な課題に対処するための特定のモデルとツールの強調について述べる。
本調査の主な目的は,中国語の文化的・言語的複雑さに対処可能な,既存の手法を探求し,さらなる研究の道筋を明らかにすることである。
関連論文リスト
- A comprehensive cross-language framework for harmful content detection
with the aid of sentiment analysis [0.356008609689971]
この研究は、初めて、どんな言語にも適応可能な詳細なフレームワークを紹介します。
フレームワークの重要なコンポーネントは、汎用的で詳細なアノテーションガイドラインの開発である。
感情分析の統合は、有害な言語検出を強化する新しいアプローチである。
論文 参考訳(メタデータ) (2024-03-02T17:13:47Z) - Language Detection for Transliterated Content [0.0]
我々は、英語のアルファベットを母国語でメッセージを伝えるために使用する翻訳の広汎な利用について研究する。
本稿では,ヒンディー語とロシア語を英語に翻訳した音声テキストのデータセットを用いて,この問題に対処する。
この研究は、翻訳されたテキストを識別し、変換するための革新的なアプローチの先駆者である。
論文 参考訳(メタデータ) (2024-01-09T15:40:54Z) - Detection of Offensive and Threatening Online Content in a Low Resource
Language [0.0]
ハウサ語は主要なチャド語であり、アフリカで1億人以上の人々が話している。
オンラインプラットフォームは、しばしば、攻撃的および脅迫的な言語の使用につながる社会的相互作用を促進する。
論文 参考訳(メタデータ) (2023-11-17T14:08:44Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Towards Bridging the Digital Language Divide [4.234367850767171]
多言語言語処理システムは、しばしばハードワイヤで、通常不随意で、特定の言語に対して隠された表現的嗜好を示す。
偏りのある技術は、しばしば表現される言語の複雑さに不公平な研究・開発手法の結果であることを示す。
我々は,技術設計と方法論の両面から,言語バイアスを減らすことを目的とした新しいイニシアティブを提案する。
論文 参考訳(メタデータ) (2023-07-25T10:53:20Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Societal Biases in Language Generation: Progress and Challenges [43.06301135908934]
言語生成は、直接ユーザインタラクションとデコード技術の構造に関して、独自の課題を提示する。
本研究では, 言語生成における社会的バイアスに関する調査を行い, 技術がバイアスにどのように貢献するか, バイアス分析と緩和への進展に焦点をあてる。
復号化技術によるバイアスの研究の欠如により、これらの手法の効果を定量化するための実験も行なっている。
論文 参考訳(メタデータ) (2021-05-10T00:17:33Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。