論文の概要: ylmmcl at Multilingual Text Detoxification 2025: Lexicon-Guided Detoxification and Classifier-Gated Rewriting
- arxiv url: http://arxiv.org/abs/2507.18769v1
- Date: Thu, 24 Jul 2025 19:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.737164
- Title: ylmmcl at Multilingual Text Detoxification 2025: Lexicon-Guided Detoxification and Classifier-Gated Rewriting
- Title(参考訳): ylmmcl at Multilingual Text Detoxification 2025: Lexicon-Guided Detoxification and Classifier-Gated Rewriting
- Authors: Nicole Lai-Lopez, Lusha Wang, Su Yuan, Liza Zhang,
- Abstract要約: そこで,本研究では,Lilmmcl チームを対象とした PAN-2025 コンペティションにおける多言語テキストデトキシフィケーションタスクのソリューションについて紹介する。
提案手法は,多言語_toxic_lexiconによる明示的な有毒な単語アノテーションを活用することで,教師なしパイプラインやモノリンガルパイプラインから逸脱する。
我々のモデルは, これまでの試行から最も高いSTA(0.922)を達成し, 開発およびテストセットの双方において, 有毒な入力に対する平均 J スコア0.612 を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce our solution for the Multilingual Text Detoxification Task in the PAN-2025 competition for the ylmmcl team: a robust multilingual text detoxification pipeline that integrates lexicon-guided tagging, a fine-tuned sequence-to-sequence model (s-nlp/mt0-xl-detox-orpo) and an iterative classifier-based gatekeeping mechanism. Our approach departs from prior unsupervised or monolingual pipelines by leveraging explicit toxic word annotation via the multilingual_toxic_lexicon to guide detoxification with greater precision and cross-lingual generalization. Our final model achieves the highest STA (0.922) from our previous attempts, and an average official J score of 0.612 for toxic inputs in both the development and test sets. It also achieved xCOMET scores of 0.793 (dev) and 0.787 (test). This performance outperforms baseline and backtranslation methods across multiple languages, and shows strong generalization in high-resource settings (English, Russian, French). Despite some trade-offs in SIM, the model demonstrates consistent improvements in detoxification strength. In the competition, our team achieved ninth place with a score of 0.612.
- Abstract(参考訳): 本研究では,Lymmclチームを対象としたPAN-2025コンペティションにおける多言語テキストデトキシフィケーションタスクのソリューションとして,レキシコン誘導タグ付けを統合した堅牢な多言語テキストデトキシフィケーションパイプライン,微調整シーケンス・ツー・シーケンスモデル(s-nlp/mt0-xl-detox-orpo),反復型分類器ベースのゲートキーピング機構を提案する。
提案手法は,多言語_toxic_lexiconによる明示的な有毒な単語アノテーションを利用して,より高精度かつ多言語間一般化による解毒を誘導することにより,教師なしあるいはモノリンガルなパイプラインから逸脱する。
我々の最終モデルは、これまでの試行から最も高いSTA(0.922)を達成し、開発とテストセットの両方において有毒な入力に対する平均的なJスコアは0.612である。
また、xCOMETスコア0.793(dev)と0.787(test)も達成した。
この性能は、複数の言語にまたがるベースラインとバックトランスレーションの手法より優れており、高リソース設定(英語、ロシア語、フランス語)において強力な一般化を示している。
SIMのトレードオフはいくつかあるが、このモデルはデトキシ化強度が一貫した改善を示している。
試合では0.612得点で9位となった。
関連論文リスト
- Breaking mBad! Supervised Fine-tuning for Cross-Lingual Detoxification [31.7516400680833]
クロス・リンガル・デトキシフィケーション(Cross-lingual Detoxification)は、大規模言語モデルにおいて毒性を緩和するパラダイムである。
本研究では, クロスディストリビューション設定における毒性低下を解析し, 非有害タスクに対するモデル性能への影響について検討する。
論文 参考訳(メタデータ) (2025-05-22T14:30:14Z) - Multilingual and Explainable Text Detoxification with Parallel Corpora [58.83211571400692]
並列テキストデトックス化コーパスを新しい言語に拡張する。
本研究は, 有毒な文と非有毒な文の両方の記述的特徴について, 自動的, 説明可能な分析を行う。
そこで我々は,Chain-of-Thoughts推論手法に触発された新しいテキスト解毒法を実験した。
論文 参考訳(メタデータ) (2024-12-16T12:08:59Z) - SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification [41.94295877935867]
本稿では,SmurfCatチームのPAN-2024コンペティションにおける多言語テキストの解法を提案する。
機械翻訳によるデータ拡張と特別なフィルタリング手法を用いて,テキストのデトックス化のための追加の多言語並列データセットを収集した。
テキストデトキシフィケーションタスクにおいて,mT0 や Aya などの多言語列列列列モデルを微調整した。
論文 参考訳(メタデータ) (2024-07-07T17:19:34Z) - PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models [27.996123856250065]
既存の毒性ベンチマークは圧倒的に英語に焦点を当てている。
PTP(PolygloToxicity Prompts)は、17言語にまたがる自然発生プロンプト425Kの大規模多言語毒性評価ベンチマークである。
論文 参考訳(メタデータ) (2024-05-15T14:22:33Z) - MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages [71.50809576484288]
テキスト・デトックス化(英: text detoxification)とは、テキストが有害な表面形態(例えば無作為な単語を特徴付けるような)から中性レジスタへパラフレーズ化されるタスクである。
並列テキストデトキシフィケーションコーパスコレクション(ParaDetoxとAPPADIA)の最近のアプローチはモノリンガル設定でのみ検討されている。
本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T15:32:32Z) - Exploring Methods for Cross-lingual Text Style Transfer: The Case of
Text Detoxification [77.45995868988301]
テキスト・デトックス化(text detoxification)とは、テキストのスタイルを有害から中立に移行させる作業である。
本稿では,言語間テキストのデトックス化戦略を大規模に検討する。
論文 参考訳(メタデータ) (2023-11-23T11:40:28Z) - Exploring Cross-lingual Textual Style Transfer with Large Multilingual
Language Models [78.12943085697283]
デトキシフィケーション(detoxification)とは、本来の有毒なテキストの意味と流布を保ちつつ、丁寧なスタイルでテキストを生成するタスクである。
本研究は,多言語および多言語間の解毒と,このような大規模多言語モデルの挙動について検討する。
論文 参考訳(メタデータ) (2022-06-05T20:02:30Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - AI-UPV at IberLEF-2021 DETOXIS task: Toxicity Detection in
Immigration-Related Web News Comments Using Transformers and Statistical
Models [0.0]
我々は,Webニュース記事に対するコメントにおいて,xenophobiaを検出するための正確なモデルを実装した。
我々はF1スコア0.5996で第1タスク2オフィシャルランキング3位を獲得し、CEM0.7142で第2タスク2オフィシャルランキング6位を獲得した。
その結果, (i) BERTモデルはテキストコメントにおける毒性検出の統計モデルよりも優れた結果が得られること, (ii) 単言語BERTモデルはテキストコメントにおける毒性検出における多言語BERTモデルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T14:24:21Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。