論文の概要: Boosting Accuracy and Interpretability in Multilingual Hate Speech Detection Through Layer Freezing and Explainable AI
- arxiv url: http://arxiv.org/abs/2601.02697v1
- Date: Tue, 06 Jan 2026 04:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.795264
- Title: Boosting Accuracy and Interpretability in Multilingual Hate Speech Detection Through Layer Freezing and Explainable AI
- Title(参考訳): 階層凍結・説明可能なAIによる多言語ヘイト音声検出における精度と解釈可能性の向上
- Authors: Meysam Shirdel Bilehsavar, Negin Mahmoudi, Mohammad Jalili Torkamani, Kiana Kiashemshaki,
- Abstract要約: 本研究では,感情分析とヘイトスピーチ検出のための3つのトランスフォーマーモデルの性能について検討した。
評価は英語、韓国語、日本語、中国語、フランス語の5言語で行われている。
モデル決定に対する個々の単語の寄与を強調するために、局所解釈型モデル非依存説明(LIME)フレームワークを統合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis focuses on identifying the emotional polarity expressed in textual data, typically categorized as positive, negative, or neutral. Hate speech detection, on the other hand, aims to recognize content that incites violence, discrimination, or hostility toward individuals or groups based on attributes such as race, gender, sexual orientation, or religion. Both tasks play a critical role in online content moderation by enabling the detection and mitigation of harmful or offensive material, thereby contributing to safer digital environments. In this study, we examine the performance of three transformer-based models: BERT-base-multilingual-cased, RoBERTa-base, and XLM-RoBERTa-base with the first eight layers frozen, for multilingual sentiment analysis and hate speech detection. The evaluation is conducted across five languages: English, Korean, Japanese, Chinese, and French. The models are compared using standard performance metrics, including accuracy, precision, recall, and F1-score. To enhance model interpretability and provide deeper insight into prediction behavior, we integrate the Local Interpretable Model-agnostic Explanations (LIME) framework, which highlights the contribution of individual words to the models decisions. By combining state-of-the-art transformer architectures with explainability techniques, this work aims to improve both the effectiveness and transparency of multilingual sentiment analysis and hate speech detection systems.
- Abstract(参考訳): 感覚分析は、テキストデータで表される感情的極性(典型的には正、負、中性に分類される)を特定することに焦点を当てる。
一方、ヘイトスピーチ検出は、人種、性別、性的指向、宗教などの属性に基づいて、個人やグループに対する暴力、差別、敵意を喚起するコンテンツを認識することを目的としている。
どちらのタスクも、有害または有害な物質の検出と緩和を可能にして、より安全なデジタル環境に寄与することで、オンラインコンテンツモデレーションにおいて重要な役割を果たす。
本研究では,3つのトランスフォーマーモデル(BERT-base-multilingual-cased,RoBERTa-base,XLM-RoBERTa-base)の性能について検討した。
評価は英語、韓国語、日本語、中国語、フランス語の5言語で行われている。
モデルは、精度、精度、リコール、F1スコアなど、標準的なパフォーマンスメトリクスを使用して比較される。
モデル解釈可能性を高め,予測行動に対する深い洞察を与えるために,モデル決定への個々の単語の寄与を強調するローカル解釈型モデル非依存説明(LIME)フレームワークを統合する。
本研究は,最先端のトランスフォーマーアーキテクチャと説明可能性技術を組み合わせることで,多言語感情分析とヘイトスピーチ検出システムの有効性と透明性を向上させることを目的とする。
関連論文リスト
- DeformAr: Rethinking NER Evaluation through Component Analysis and Visual Analytics [0.0]
本稿では,アラビア語と英語のNERシステム間の性能差を調査・説明するためのフレームワークであるDeformArを紹介する。
DeformArはアラビア語固有の最初のコンポーネントベースの解釈ツールであり、アンダーリソース言語でモデル解析を進める上で重要なリソースを提供する。
論文 参考訳(メタデータ) (2025-11-30T15:39:28Z) - A Comprehensive Evaluation of Multilingual Chain-of-Thought Reasoning: Performance, Consistency, and Faithfulness Across Languages [48.68444770923683]
マルチリンガル・チェーン・オブ・ソート(CoT)推論の最初の包括的研究について述べる。
LRMがターゲット言語ですぐに考えることができる場合、言語コンプライアンス、解答精度、解答一貫性を計測する。
思考の痕跡の質と有効性は、素早い言語によって大きく異なることがわかった。
論文 参考訳(メタデータ) (2025-10-10T17:06:50Z) - SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - Fine-Grained Chinese Hate Speech Understanding: Span-Level Resources, Coded Term Lexicon, and Enhanced Detection Frameworks [13.187315629074428]
Span-level Target-Aware Toxicity extract dataset (STATE ToxiCN)を導入する。
我々は、中国語のコード化されたヘイト用語、LLMのヘイトセマンティクスを解釈する能力について、初めて包括的な研究を行った。
本稿では,注釈付き辞書をモデルに統合し,ヘイトスピーチ検出性能を大幅に向上させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-15T13:19:18Z) - A comprehensive cross-language framework for harmful content detection
with the aid of sentiment analysis [0.356008609689971]
この研究は、初めて、どんな言語にも適応可能な詳細なフレームワークを紹介します。
フレームワークの重要なコンポーネントは、汎用的で詳細なアノテーションガイドラインの開発である。
感情分析の統合は、有害な言語検出を強化する新しいアプローチである。
論文 参考訳(メタデータ) (2024-03-02T17:13:47Z) - CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。