論文の概要: Evaluating Text Style Transfer Evaluation: Are There Any Reliable Metrics?
- arxiv url: http://arxiv.org/abs/2502.04718v1
- Date: Fri, 07 Feb 2025 07:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:58.205765
- Title: Evaluating Text Style Transfer Evaluation: Are There Any Reliable Metrics?
- Title(参考訳): テキストスタイルの伝達評価 : 信頼性のあるメトリクスはあるか?
- Authors: Sourabrata Mukherjee, Atul Kr. Ojha, John P. McCrae, Ondrej Dusek,
- Abstract要約: テキストスタイル転送(テキストスタイルトランスファー、英: Text Style Transfer、TST)は、テキストを変換して特定のスタイルを反映し、元のコンテンツを保存するタスクである。
人間の評価は理想的であるが、他の自然言語処理(NLP)タスクと同様にコストがかかる。
本稿では,TST評価のためのNLPタスクから,既存のメトリクスと新しいメトリクスのセットについて検討する。
- 参考スコア(独自算出の注目度): 9.234136424254261
- License:
- Abstract: Text Style Transfer (TST) is the task of transforming a text to reflect a particular style while preserving its original content. Evaluating TST outputs is a multidimensional challenge, requiring the assessment of style transfer accuracy, content preservation, and naturalness. Using human evaluation is ideal but costly, same as in other natural language processing (NLP) tasks, however, automatic metrics for TST have not received as much attention as metrics for, e.g., machine translation or summarization. In this paper, we examine both set of existing and novel metrics from broader NLP tasks for TST evaluation, focusing on two popular subtasks-sentiment transfer and detoxification-in a multilingual context comprising English, Hindi, and Bengali. By conducting meta-evaluation through correlation with human judgments, we demonstrate the effectiveness of these metrics when used individually and in ensembles. Additionally, we investigate the potential of Large Language Models (LLMs) as tools for TST evaluation. Our findings highlight that certain advanced NLP metrics and experimental-hybrid-techniques, provide better insights than existing TST metrics for delivering more accurate, consistent, and reproducible TST evaluations.
- Abstract(参考訳): テキストスタイル転送(テキストスタイルトランスファー、英: Text Style Transfer、TST)は、テキストを変換して特定のスタイルを反映し、元のコンテンツを保存するタスクである。
TST出力の評価は多次元的課題であり、スタイル転送精度、コンテンツ保存性、自然性の評価が必要である。
人間の評価は理想的であるが、他の自然言語処理(NLP)タスクと同様にコストがかかるが、TSTの自動メトリクスは機械翻訳や要約のようなメトリクスほど注目されていない。
本稿では、英語、ヒンディー語、ベンガル語からなる多言語文脈における2つの一般的なサブタスク・センチメント・トランスファーとデトキシフィケーションに着目し、TST評価のためのより広範なNLPタスクからの既存のメトリクスと新しいメトリクスのセットについて検討する。
人間の判断と相関してメタ評価を行うことにより,個人およびアンサンブルで使用した場合に,これらの指標の有効性を実証する。
さらに,TST評価ツールとしてのLarge Language Models(LLMs)の可能性についても検討する。
以上の結果から, ある高度なNLP指標と実験ハイブリッド技術は, 既存のTST指標よりも優れた洞察を与え, より正確で一貫した再現可能なTST評価を実現することが示唆された。
関連論文リスト
- Text Style Transfer Evaluation Using Large Language Models [24.64611983641699]
大きな言語モデル(LLM)は、平均的な人間のパフォーマンスにマッチし、さらに超える能力を示している。
複数の入力プロンプトを用いて、TSTにおける異なるLLMの結果を比較した。
この結果から,LLMが従来の自動測定値より優れていることが示唆された(ゼロショットでも)。
論文 参考訳(メタデータ) (2023-08-25T13:07:33Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Multidimensional Evaluation for Text Style Transfer Using ChatGPT [14.799109368073548]
emphTextスタイル転送作業における多次元評価器としてのChatGPTの可能性について検討する。
本研究は,テキストスタイルの伝達評価において,文体強度,コンテンツ保存,流布の3次元において,その性能を検証した。
これらの予備的な結果は、スタイリングされたテキスト生成の多次元評価において、大きな言語モデルが果たす役割を初めて垣間見ることができると期待されている。
論文 参考訳(メタデータ) (2023-04-26T11:33:35Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Statistical Machine Translation for Indic Languages [1.8899300124593648]
本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。
このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。
本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
論文 参考訳(メタデータ) (2023-01-02T06:23:12Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - MT Metrics Correlate with Human Ratings of Simultaneous Speech
Translation [10.132491257235024]
本研究では,CR(Continuous Ratings)とオフライン機械翻訳評価指標の相関分析を行った。
本研究は,オフラインのメトリクスがCRとよく相関していることを明らかにし,同時に機械翻訳を評価するために確実に使用できることを示した。
SSTの現在の品質レベルを考えると、これらの指標はCRのプロキシとして利用することができ、大規模な人的評価の必要性を軽減することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-16T03:03:56Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Text Style Transfer: A Review and Experimental Evaluation [26.946157705298685]
Text Style Transfer (TST)タスクは、スタイルに依存しないコンテンツを保持しながら、テキストのスタイリスティックな特性を変更することを目的としている。
多くの新しいTSTアルゴリズムが開発され、業界はこれらのアルゴリズムを活用してエキサイティングなTSTアプリケーションを実現している。
本稿では,テキストスタイルの伝達に関する最近の研究成果を概観する。
論文 参考訳(メタデータ) (2020-10-24T02:02:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。