論文の概要: GemDetox at TextDetox CLEF 2025: Enhancing a Massively Multilingual Model for Text Detoxification on Low-resource Languages
- arxiv url: http://arxiv.org/abs/2510.01250v1
- Date: Wed, 24 Sep 2025 10:06:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.755393
- Title: GemDetox at TextDetox CLEF 2025: Enhancing a Massively Multilingual Model for Text Detoxification on Low-resource Languages
- Title(参考訳): GemDetox at TextDetox CLEF 2025:低リソース言語におけるテキストデトックス化のための多言語モデルの実現
- Authors: Trung Duc Anh Dang, Ferdinando Pio D'Elia,
- Abstract要約: PAN 2025 Multilingual Text Detoxification Challengeについて述べる。
パラメータ効率のよいLoRA SFT微調整を施し、少数ショットやチェーン・オブ・サートのような技法を推し進める。
当社のシステムは、まず、高リソースおよび低リソース言語にランク付けする。
- 参考スコア(独自算出の注目度): 32.22353317193898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As social-media platforms emerge and evolve faster than the regulations meant to oversee them, automated detoxification might serve as a timely tool for moderators to enforce safe discourse at scale. We here describe our submission to the PAN 2025 Multilingual Text Detoxification Challenge, which rewrites toxic single-sentence inputs into neutral paraphrases across 15 typologically diverse languages. Building on a 12B-parameter Gemma-3 multilingual transformer, we apply parameter-efficient LoRA SFT fine-tuning and prompting techniques like few-shot and Chain-of-Thought. Our multilingual training corpus combines 3,600 human-authored parallel pairs, 21,600 machine-translated synthetic pairs, and model-generated pairs filtered by Jaccard thresholds. At inference, inputs are enriched with three LaBSE-retrieved neighbors and explicit toxic-span annotations. Evaluated via Style Transfer Accuracy, LaBSE-based semantic preservation, and xCOMET fluency, our system ranks first on high-resource and low-resource languages. Ablations show +0.081 joint score increase from few-shot examples and +0.088 from basic CoT prompting. ANOVA analysis identifies language resource status as the strongest predictor of performance ($\eta^2$ = 0.667, p < 0.01).
- Abstract(参考訳): ソーシャルメディアプラットフォームが、それらを監督する規制よりも早く出現し、進化していくにつれ、自動化されたデトキシフィケーションは、モデレーターが大規模に安全な言論を強制するためのタイムリーなツールとして機能するかもしれない。
本稿では,15言語にまたがる有毒な単一文入力を中性パラフレーズに書き換えるPAN 2025 Multilingual Text Detoxification Challengeについて述べる。
12BパラメーターGemma-3多言語変換器上に構築し,パラメータ効率の高いLoRA SFT微調整を適用した。
私たちの多言語トレーニングコーパスは、3,600個の人間による並列ペア、21,600個の機械翻訳合成ペア、そしてジャカード閾値でフィルタリングされたモデル生成ペアを組み合わせています。
推論において、入力には3つのLaBSE検索された隣人と明示的な有毒スパンアノテーションが組み込まれている。
このシステムは,スタイル転送精度,LaBSEに基づく意味保存,xCOMETの流速によって評価され,まず高リソースおよび低リソース言語にランク付けする。
アブレーションでは、少数のサンプルから+0.081の関節スコアが増加し、CoTプロンプトから+0.088が上昇した。
ANOVA分析では、言語リソースの状態がパフォーマンスの最も強い予測因子である(\eta^2$ = 0.667, p < 0.01)。
関連論文リスト
- ylmmcl at Multilingual Text Detoxification 2025: Lexicon-Guided Detoxification and Classifier-Gated Rewriting [0.0]
そこで,本研究では,Lilmmcl チームを対象とした PAN-2025 コンペティションにおける多言語テキストデトキシフィケーションタスクのソリューションについて紹介する。
提案手法は,多言語_toxic_lexiconによる明示的な有毒な単語アノテーションを活用することで,教師なしパイプラインやモノリンガルパイプラインから逸脱する。
我々のモデルは, これまでの試行から最も高いSTA(0.922)を達成し, 開発およびテストセットの双方において, 有毒な入力に対する平均 J スコア0.612 を達成した。
論文 参考訳(メタデータ) (2025-07-24T19:38:15Z) - Multilingual and Explainable Text Detoxification with Parallel Corpora [58.83211571400692]
並列テキストデトックス化コーパスを新しい言語に拡張する。
本研究は, 有毒な文と非有毒な文の両方の記述的特徴について, 自動的, 説明可能な分析を行う。
そこで我々は,Chain-of-Thoughts推論手法に触発された新しいテキスト解毒法を実験した。
論文 参考訳(メタデータ) (2024-12-16T12:08:59Z) - SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification [41.94295877935867]
本稿では,SmurfCatチームのPAN-2024コンペティションにおける多言語テキストの解法を提案する。
機械翻訳によるデータ拡張と特別なフィルタリング手法を用いて,テキストのデトックス化のための追加の多言語並列データセットを収集した。
テキストデトキシフィケーションタスクにおいて,mT0 や Aya などの多言語列列列列モデルを微調整した。
論文 参考訳(メタデータ) (2024-07-07T17:19:34Z) - MultiParaDetox: Extending Text Detoxification with Parallel Data to New Languages [71.50809576484288]
テキスト・デトックス化(英: text detoxification)とは、テキストが有害な表面形態(例えば無作為な単語を特徴付けるような)から中性レジスタへパラフレーズ化されるタスクである。
並列テキストデトキシフィケーションコーパスコレクション(ParaDetoxとAPPADIA)の最近のアプローチはモノリンガル設定でのみ検討されている。
本研究では,ParaDetoxパイプラインをMultiParaDetoxを示す複数の言語に拡張し,任意の言語に対して並列デトキシフィケーションコーパスコレクションを自動化することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T15:32:32Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - Exploring Methods for Cross-lingual Text Style Transfer: The Case of
Text Detoxification [77.45995868988301]
テキスト・デトックス化(text detoxification)とは、テキストのスタイルを有害から中立に移行させる作業である。
本稿では,言語間テキストのデトックス化戦略を大規模に検討する。
論文 参考訳(メタデータ) (2023-11-23T11:40:28Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。