論文の概要: Chinese Offensive Language Detection:Current Status and Future Directions
- arxiv url: http://arxiv.org/abs/2403.18314v3
- Date: Fri, 29 Mar 2024 18:48:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 11:22:19.202172
- Title: Chinese Offensive Language Detection:Current Status and Future Directions
- Title(参考訳): 中国語の攻撃的言語検出:現状と今後の方向性
- Authors: Yunze Xiao, Houda Bouamor, Wajdi Zaghouani,
- Abstract要約: 本稿では,中国語における攻撃的言語検出について概観し,現在のベンチマークとアプローチについて検討する。
本調査の主な目的は,既存の技術を探究し,今後の研究の道筋を明らかにすることである。
- 参考スコア(独自算出の注目度): 2.1357786131968637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the considerable efforts being made to monitor and regulate user-generated content on social media platforms, the pervasiveness of offensive language, such as hate speech or cyberbullying, in the digital space remains a significant challenge. Given the importance of maintaining a civilized and respectful online environment, there is an urgent and growing need for automatic systems capable of detecting offensive speech in real time. However, developing effective systems for processing languages such as Chinese presents a significant challenge, owing to the language's complex and nuanced nature, which makes it difficult to process automatically. This paper provides a comprehensive overview of offensive language detection in Chinese, examining current benchmarks and approaches and highlighting specific models and tools for addressing the unique challenges of detecting offensive language in this complex language. The primary objective of this survey is to explore the existing techniques and identify potential avenues for further research that can address the cultural and linguistic complexities of Chinese.
- Abstract(参考訳): ソーシャルメディアプラットフォーム上でユーザー生成コンテンツを監視・規制するためのかなりの努力にもかかわらず、ヘイトスピーチやサイバーいじめのような攻撃的な言語がデジタル空間に広まることは大きな課題である。
文明化され、尊敬されるオンライン環境を維持することの重要性を考えると、攻撃的な音声をリアルタイムで検出できる自動システムの必要性は急速に高まっている。
しかし、中国語などの言語処理に有効なシステムを開発することは、言語が複雑でニュアンスに富んだ性質のため重要な課題であり、自動処理が困難である。
本稿では、中国語における攻撃的言語検出の総合的な概要、現在のベンチマークとアプローチ、この複雑な言語における攻撃的言語検出の独特な課題に対処するための特定のモデルとツールの強調について述べる。
本調査の主な目的は,中国語の文化的・言語的複雑さに対処可能な,既存の手法を探求し,さらなる研究の道筋を明らかにすることである。
関連論文リスト
- Behind Closed Words: Creating and Investigating the forePLay Annotated Dataset for Polish Erotic Discourse [0.0]
本稿では,エロティックなコンテンツ検出のためのポーランド語データセットであるforePLayを紹介する。
このデータセットは、曖昧さ、暴力、社会的受容不能な次元を含む多次元分類を含む24k以上の注釈付き文を特徴としている。
論文 参考訳(メタデータ) (2024-12-23T12:58:18Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - A comprehensive cross-language framework for harmful content detection
with the aid of sentiment analysis [0.356008609689971]
この研究は、初めて、どんな言語にも適応可能な詳細なフレームワークを紹介します。
フレームワークの重要なコンポーネントは、汎用的で詳細なアノテーションガイドラインの開発である。
感情分析の統合は、有害な言語検出を強化する新しいアプローチである。
論文 参考訳(メタデータ) (2024-03-02T17:13:47Z) - Language Detection for Transliterated Content [0.0]
我々は、英語のアルファベットを母国語でメッセージを伝えるために使用する翻訳の広汎な利用について研究する。
本稿では,ヒンディー語とロシア語を英語に翻訳した音声テキストのデータセットを用いて,この問題に対処する。
この研究は、翻訳されたテキストを識別し、変換するための革新的なアプローチの先駆者である。
論文 参考訳(メタデータ) (2024-01-09T15:40:54Z) - Detection of Offensive and Threatening Online Content in a Low Resource
Language [0.0]
ハウサ語は主要なチャド語であり、アフリカで1億人以上の人々が話している。
オンラインプラットフォームは、しばしば、攻撃的および脅迫的な言語の使用につながる社会的相互作用を促進する。
論文 参考訳(メタデータ) (2023-11-17T14:08:44Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Societal Biases in Language Generation: Progress and Challenges [43.06301135908934]
言語生成は、直接ユーザインタラクションとデコード技術の構造に関して、独自の課題を提示する。
本研究では, 言語生成における社会的バイアスに関する調査を行い, 技術がバイアスにどのように貢献するか, バイアス分析と緩和への進展に焦点をあてる。
復号化技術によるバイアスの研究の欠如により、これらの手法の効果を定量化するための実験も行なっている。
論文 参考訳(メタデータ) (2021-05-10T00:17:33Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Crossing the Conversational Chasm: A Primer on Multilingual
Task-Oriented Dialogue Systems [51.328224222640614]
大規模な学習済みニューラルネットワークモデルに基づく最新のTODモデルは、データ空腹です。
ToDのユースケースのデータ取得は高価で面倒だ。
論文 参考訳(メタデータ) (2021-04-17T15:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。