論文の概要: A comprehensive cross-language framework for harmful content detection
with the aid of sentiment analysis
- arxiv url: http://arxiv.org/abs/2403.01270v1
- Date: Sat, 2 Mar 2024 17:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 14:29:20.401683
- Title: A comprehensive cross-language framework for harmful content detection
with the aid of sentiment analysis
- Title(参考訳): 感情分析による有害コンテンツ検出のための包括的クロス言語フレームワーク
- Authors: Mohammad Dehghani
- Abstract要約: この研究は、初めて、どんな言語にも適応可能な詳細なフレームワークを紹介します。
フレームワークの重要なコンポーネントは、汎用的で詳細なアノテーションガイドラインの開発である。
感情分析の統合は、有害な言語検出を強化する新しいアプローチである。
- 参考スコア(独自算出の注目度): 0.356008609689971
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In today's digital world, social media plays a significant role in
facilitating communication and content sharing. However, the exponential rise
in user-generated content has led to challenges in maintaining a respectful
online environment. In some cases, users have taken advantage of anonymity in
order to use harmful language, which can negatively affect the user experience
and pose serious social problems. Recognizing the limitations of manual
moderation, automatic detection systems have been developed to tackle this
problem. Nevertheless, several obstacles persist, including the absence of a
universal definition for harmful language, inadequate datasets across
languages, the need for detailed annotation guideline, and most importantly, a
comprehensive framework. This study aims to address these challenges by
introducing, for the first time, a detailed framework adaptable to any
language. This framework encompasses various aspects of harmful language
detection. A key component of the framework is the development of a general and
detailed annotation guideline. Additionally, the integration of sentiment
analysis represents a novel approach to enhancing harmful language detection.
Also, a definition of harmful language based on the review of different related
concepts is presented. To demonstrate the effectiveness of the proposed
framework, its implementation in a challenging low-resource language is
conducted. We collected a Persian dataset and applied the annotation guideline
for harmful detection and sentiment analysis. Next, we present baseline
experiments utilizing machine and deep learning methods to set benchmarks.
Results prove the framework's high performance, achieving an accuracy of 99.4%
in offensive language detection and 66.2% in sentiment analysis.
- Abstract(参考訳): 今日のデジタル世界では、ソーシャルメディアはコミュニケーションとコンテンツ共有の促進に重要な役割を果たしている。
しかし,ユーザ生成コンテンツの急速な増加は,オンライン環境を尊重する上での課題となっている。
ユーザ体験に悪影響を及ぼし、深刻な社会問題を引き起こす有害な言語を使用するために、匿名性を利用する場合もある。
手動モデレーションの限界を認識し,この問題に対処するために自動検出システムを開発した。
それでも、有害言語に対する普遍的な定義の欠如、言語間の不適切なデータセットの欠如、詳細なアノテーションガイドラインの必要性、そして最も重要なのは、包括的なフレームワークである。
この研究は、どんな言語にも適応可能な詳細なフレームワークを初めて導入することで、これらの課題に対処することを目的としている。
このフレームワークは有害な言語検出の様々な側面を含んでいる。
フレームワークの重要なコンポーネントは、一般的なアノテーションガイドラインと詳細なアノテーションガイドラインの開発である。
さらに感情分析の統合は、有害な言語検出を強化するための新しいアプローチである。
また、異なる概念のレビューに基づく有害言語の定義についても述べる。
提案手法の有効性を示すため,低リソース言語における実装について検討した。
ペルシャのデータセットを収集し,有害な検出と感情分析にアノテーションガイドラインを適用した。
次に,機械学習と深層学習によるベンチマーク設定のベースライン実験を行う。
その結果、攻撃的な言語検出では99.4%、感情分析では66.2%の精度でフレームワークのパフォーマンスが証明された。
関連論文リスト
- ToxiCloakCN: Evaluating Robustness of Offensive Language Detection in Chinese with Cloaking Perturbations [6.360597788845826]
本研究では,現在最先端の大規模言語モデル (LLM) の体系的摂動データにおける攻撃的内容の同定における限界について検討する。
我々の研究は、検出メカニズムを回避するために使用される進化的戦術に対抗するために、攻撃言語検出におけるより高度な技術が緊急に必要であることを強調している。
論文 参考訳(メタデータ) (2024-06-18T02:44:56Z) - On the Robustness of Language Guidance for Low-Level Vision Tasks: Findings from Depth Estimation [71.72465617754553]
対象中心の3次元空間関係を伝達する低レベルな文を生成し,これらを追加言語として組み込んで,深度推定における下流の影響を評価する。
我々の重要な発見は、現在の言語誘導深度推定器がシーンレベルの記述のみを最適に実行することである。
追加データを活用するにもかかわらず、これらの手法は敵の直接攻撃や分散シフトの増加に伴う性能低下に対して堅牢ではない。
論文 参考訳(メタデータ) (2024-04-12T15:35:20Z) - Chinese Offensive Language Detection:Current Status and Future Directions [2.1357786131968637]
本稿では,中国語における攻撃的言語検出について概観し,現在のベンチマークとアプローチについて検討する。
本調査の主な目的は,既存の技術を探究し,今後の研究の道筋を明らかにすることである。
論文 参考訳(メタデータ) (2024-03-27T07:34:44Z) - Capturing Pertinent Symbolic Features for Enhanced Content-Based
Misinformation Detection [0.0]
誤解を招く内容の検出は、言語的・ドメイン的多様性の極端さから、大きなハードルとなる。
本稿では,この現象を特徴付ける言語特性と,最も一般的な誤情報データセットの表現方法について分析する。
ニューラルネットワークモデルと組み合わせた関連する記号的知識の適切な利用は、誤解を招くコンテンツを検出するのに有効であることを示す。
論文 参考訳(メタデータ) (2024-01-29T16:42:34Z) - When a Language Question Is at Stake. A Revisited Approach to Label
Sensitive Content [0.0]
記事では、ロシアとウクライナの戦争を取り上げたウクライナのツイートの例について、疑似ラベル付き機密データのアプローチを再検討する。
得られたデータを統計的に解析し、擬似ラベリングに使用するモデルの評価を行い、さらにそのコーパスの活用方法についてのガイドラインを定めている。
論文 参考訳(メタデータ) (2023-11-17T13:35:10Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Contextual information integration for stance detection via
cross-attention [59.662413798388485]
スタンス検出は、著者の目標に対する姿勢を特定することを扱う。
既存のスタンス検出モデルの多くは、関連するコンテキスト情報を考慮していないため、制限されている。
文脈情報をテキストとして統合する手法を提案する。
論文 参考訳(メタデータ) (2022-11-03T15:04:29Z) - Metrics reloaded: Recommendations for image analysis validation [59.60445111432934]
メトリクスのリロード(Metrics Reloaded)は、メトリクスの問題を意識した選択において研究者を導く包括的なフレームワークである。
このフレームワークは多段階のDelphiプロセスで開発され、問題指紋という新しい概念に基づいている。
問題指紋に基づいて、ユーザは適切なバリデーションメトリクスを選択して適用するプロセスを通じてガイドされる。
論文 参考訳(メタデータ) (2022-06-03T15:56:51Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Natural language technology and query expansion: issues,
state-of-the-art and perspectives [0.0]
クエリのあいまいさや誤解釈を引き起こす言語特性と、追加の要因は、ユーザの情報ニーズを正確に表現する能力に影響を与える。
汎用言語に基づく問合せ拡張フレームワークの解剖学を概説し,モジュールに基づく分解を提案する。
それぞれのモジュールについて、文献における最先端のソリューションをレビューし、使用するテクニックの光の下で分類する。
論文 参考訳(メタデータ) (2020-04-23T11:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。