論文の概要: MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection
- arxiv url: http://arxiv.org/abs/2603.05057v1
- Date: Thu, 05 Mar 2026 11:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.196905
- Title: MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection
- Title(参考訳): MUTEX:Urdu Toxic Span検出のための多言語変換器と条件付ランダムフィールドの活用
- Authors: Inayat Arshad, Fajar Saleem, Ijaz Hussain,
- Abstract要約: MUTEXは、Urdu毒性スパン検出フレームワークの条件付きランダムフィールド(CRF)と組み合わせた多言語変換器である。
MUTEXは、Urdu毒性スパン検出のための最初の教師付きベースラインであるトークンレベルF1スコアの60%を達成している。
- 参考スコア(独自算出の注目度): 0.41292255339309664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Urdu toxic span detection remains limited because most existing systems rely on sentence-level classification and fail to identify the specific toxic spans within those text. It is further exacerbated by the multiple factors i.e. lack of token-level annotated resources, linguistic complexity of Urdu, frequent code-switching, informal expressions, and rich morphological variations. In this research, we propose MUTEX: a multilingual transformer combined with conditional random fields (CRF) for Urdu toxic span detection framework that uses manually annotated token-level toxic span dataset to improve performance and interpretability. MUTEX uses XLM RoBERTa with CRF layer to perform sequence labeling and is tested on multi-domain data extracted from social media, online news, and YouTube reviews using token-level F1 to evaluate fine-grained span detection. The results indicate that MUTEX achieves 60% token-level F1 score that is the first supervised baseline for Urdu toxic span detection. Further examination reveals that transformer-based models are more effective at implicitly capturing the contextual toxicity and are able to address the issues of code-switching and morphological variation than other models.
- Abstract(参考訳): ウルドゥーの有毒なスパン検出は、ほとんどの既存のシステムは文レベルの分類に依存しており、それらのテキスト内の特定の有毒なスパンを識別できないため、依然として限られている。
さらに、トークンレベルのアノテートリソースの欠如、ウルドゥー語の複雑さ、頻繁なコードスイッチング、非公式な表現、豊富な形態変化など、複数の要因によってさらに悪化している。
本研究では,Urdu有毒スパン検出フレームワークに条件付きランダムフィールド(CRF)を組み合わせた多言語トランスフォーマー MUTEXを提案する。
MUTEXは、XLM RoBERTaとCRFレイヤを使用してシーケンスラベリングを行い、ソーシャルメディア、オンラインニュース、YouTubeレビューから抽出されたマルチドメインデータに対してトークンレベルF1を用いてテストし、きめ細かいスパン検出を評価する。
その結果, MUTEXはUrdu毒性スパン検出の基準線であるトークンレベルF1スコアの60%を達成できた。
さらなる検討により、トランスフォーマーベースのモデルは文脈毒性を暗黙的に捉えるのに効果的であり、他のモデルよりもコードスイッチングや形態変化の問題に対処できることが明らかになった。
関連論文リスト
- Unveiling Covert Toxicity in Multimodal Data via Toxicity Association Graphs: A Graph-Based Metric and Interpretable Detection Framework [58.01529356381494]
Toxicity Association Graphs (TAG) に基づく新しい検出フレームワークを提案する。
隠れ毒性の定量化のための最初の指標であるMTC(Multimodal Toxicity Covertness)を紹介する。
本手法は,意思決定プロセスの完全解釈可能性を維持しつつ,隠蔽毒性の正確な同定を可能にする。
論文 参考訳(メタデータ) (2026-02-03T08:54:25Z) - Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation [57.11989521509119]
本稿では,特殊なサブエージェントを起動するリフレクティブコアエージェントを中心に,エージェント翻訳評価フレームワークを提案する。
実験の結果、RATEの有効性が示され、現在の測定値と比較して少なくとも3.2メタスコアの改善が達成された。
論文 参考訳(メタデータ) (2026-01-12T09:03:42Z) - Text Detoxification in isiXhosa and Yorùbá: A Cross-Lingual Machine Learning Approach for Low-Resource African Languages [0.0]
Toxic Languageは、安全なオンライン参加のための大きな障壁の1つだが、アフリカ言語では堅牢な緩和ツールが不足している。
本研究は,2つの低資源アフリカ言語isiXhosaとYorbの自動テキストデトックス化(中和に有害な)について検討した。
論文 参考訳(メタデータ) (2026-01-09T08:28:58Z) - Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective [104.09817371557476]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
有害なコンテンツを生み出す可能性には、深刻な安全上の懸念が浮かび上がっている。
毒性検出のための3つの新しいマルチラベルベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T06:50:33Z) - Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach [51.95266411355865]
自己回帰言語モデルは、正書法攻撃に弱い。
この脆弱性は、サブワードトークン化器とその埋め込みに固有の語彙外問題に起因している。
本稿では,単語を個々の画像としてレンダリングすることで,テキストベースの埋め込みをピクセルベースの表現に置き換える,画素ベースの生成言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-28T20:48:38Z) - Anomaly Detection in Human Language via Meta-Learning: A Few-Shot Approach [0.0]
本稿では,ラベル付きデータに制限のある多種多様な領域にまたがる人間の言語における異常を検出する枠組みを提案する。
異常検出を数発のバイナリ分類問題として扱い、メタラーニングを活用してタスクを一般化するモデルを訓練する。
提案手法は,エピソードトレーニングと原型ネットワークとドメイン再サンプリングを組み合わせることで,新しい異常検出タスクに迅速に適応する。
論文 参考訳(メタデータ) (2025-07-26T17:23:03Z) - Exploring Gradient-Guided Masked Language Model to Detect Textual Adversarial Attacks [50.53590930588431]
敵対的な例は 自然言語処理システムに深刻な脅威をもたらします
近年の研究では、対角的テキストは通常のテキストの多様体から逸脱していることが示唆されているが、マスク付き言語モデルは正規データの多様体を近似することができる。
まず、マスク付き言語モデリング(MLM)の目的のマスクアンマスク操作を活用するMLMD(Masked Language Model-based Detection)を導入する。
論文 参考訳(メタデータ) (2025-04-08T14:10:57Z) - MuTox: Universal MUltilingual Audio-based TOXicity Dataset and Zero-shot Detector [10.37639482435147]
毒性ラベルを持つ最初の多言語音声ベースデータセットであるMuToxを紹介する。
データセットは、英語とスペイン語で20,000の音声発声と、他の19言語で4,000の音声発声で構成されている。
論文 参考訳(メタデータ) (2024-01-10T10:37:45Z) - Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:37:59Z) - WLV-RIT at SemEval-2021 Task 5: A Neural Transformer Framework for
Detecting Toxic Spans [2.4737119633827174]
近年,ソーシャルメディアの普及により,オンラインプラットフォーム上での有害コンテンツや攻撃コンテンツの発生が増加している。
ソーシャルメディアプラットフォームは自動検出手法の開発に取り組んでおり、この攻撃的コンテンツの混乱に対処するために人間のモデレーターを使用している。
論文 参考訳(メタデータ) (2021-04-09T22:52:26Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。