論文の概要: Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification
- arxiv url: http://arxiv.org/abs/2507.15557v1
- Date: Mon, 21 Jul 2025 12:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.391877
- Title: Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification
- Title(参考訳): テキストスタイル変換の評価:テキストのデトックス化のための9言語ベンチマーク
- Authors: Vitaly Protasov, Nikolay Babakov, Daryna Dementieva, Alexander Panchenko,
- Abstract要約: 本研究は,9言語にわたるテキストデトックス化システムの評価に関する総合的多言語研究である。
我々は,現代のニューラルベース評価モデルの有効性を,プロンプトベースLCM-as-a-judgeアプローチと併用して評価する。
本研究は,より信頼性の高い多言語TST評価パイプラインを設計するための実用的なレシピを提供する。
- 参考スコア(独自算出の注目度): 66.69370876902222
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite recent progress in large language models (LLMs), evaluation of text generation tasks such as text style transfer (TST) remains a significant challenge. Recent studies (Dementieva et al., 2024; Pauli et al., 2025) revealed a substantial gap between automatic metrics and human judgments. Moreover, most prior work focuses exclusively on English, leaving multilingual TST evaluation largely unexplored. In this paper, we perform the first comprehensive multilingual study on evaluation of text detoxification system across nine languages: English, Spanish, German, Chinese, Arabic, Hindi, Ukrainian, Russian, Amharic. Drawing inspiration from the machine translation, we assess the effectiveness of modern neural-based evaluation models alongside prompting-based LLM-as-a-judge approaches. Our findings provide a practical recipe for designing more reliable multilingual TST evaluation pipeline in the text detoxification case.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)の進歩にもかかわらず、テキストスタイル転送(TST)などのテキスト生成タスクの評価は依然として大きな課題である。
最近の研究(Dementieva et al , 2024; Pauli et al , 2025)では、自動測定と人的判断の間に大きなギャップが見つかった。
さらに、多くの先行研究は英語にのみ焦点をあてており、多言語TSTの評価はほとんど探索されていない。
本稿では,9言語(英語,スペイン語,ドイツ語,中国語,アラビア語,ヒンディー語,ウクライナ語,ロシア語,アムハラ語)を対象に,テキストデトキシ化システムの評価を総合的に実施する。
機械翻訳からインスピレーションを得て,現代のニューラルベース評価モデルの有効性を,プロンプトベースLCM-as-a-judgeアプローチと併用して評価する。
本研究は,テキストデトックス化症例において,より信頼性の高い多言語TST評価パイプラインを設計するための実用的なレシピを提供する。
関連論文リスト
- Evaluating Text Style Transfer Evaluation: Are There Any Reliable Metrics? [9.234136424254261]
テキスト・スタイル・トランスファー(テキスト・スタイル・トランスファー、英: Text style transfer、TST)は、テキストを変換して、元のコンテンツを保持しながら特定のスタイルを反映するタスクである。
人間の評価は理想的であるが、他の自然言語処理(NLP)タスクと同様にコストがかかる。
本稿では,TST評価のためのNLPタスクから,既存のメトリクスと新しいメトリクスのセットについて検討する。
論文 参考訳(メタデータ) (2025-02-07T07:39:17Z) - Multilingual and Explainable Text Detoxification with Parallel Corpora [58.83211571400692]
並列テキストデトックス化コーパスを新しい言語に拡張する。
本研究は, 有毒な文と非有毒な文の両方の記述的特徴について, 自動的, 説明可能な分析を行う。
そこで我々は,Chain-of-Thoughts推論手法に触発された新しいテキスト解毒法を実験した。
論文 参考訳(メタデータ) (2024-12-16T12:08:59Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Exploring Methods for Cross-lingual Text Style Transfer: The Case of
Text Detoxification [77.45995868988301]
テキスト・デトックス化(text detoxification)とは、テキストのスタイルを有害から中立に移行させる作業である。
本稿では,言語間テキストのデトックス化戦略を大規模に検討する。
論文 参考訳(メタデータ) (2023-11-23T11:40:28Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Evaluating the Evaluation Metrics for Style Transfer: A Case Study in
Multilingual Formality Transfer [11.259786293913606]
この研究は、スタイル転送(ST)におけるメトリクスの多言語的評価としては初めてである。
フォーマルなスタイル転送のタスクにおいて, 先行ST自動測定値の評価を行った。
人間の判断とよく相関し、言語間で堅牢なモデルをいくつか特定する。
論文 参考訳(メタデータ) (2021-10-20T17:21:09Z) - Methods for Detoxification of Texts for the Russian Language [55.337471467610094]
我々は、攻撃的言語と戦うために、ロシア語のテキストを自動で解毒する研究を初めて紹介する。
我々は、局所的な修正を行う教師なしアプローチと、事前訓練された言語GPT-2モデルに基づく教師なしアプローチの2種類のモデルをテストする。
以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。
論文 参考訳(メタデータ) (2021-05-19T10:37:44Z) - XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.80733419450225]
本稿では,言語間移動学習の現状を解析する。
XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
論文 参考訳(メタデータ) (2021-04-15T12:26:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。