論文の概要: Mind the Style Gap: Meta-Evaluation of Style and Attribute Transfer Metrics
- arxiv url: http://arxiv.org/abs/2502.15022v3
- Date: Thu, 12 Jun 2025 08:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.161871
- Title: Mind the Style Gap: Meta-Evaluation of Style and Attribute Transfer Metrics
- Title(参考訳): Mind the Style Gap: スタイルと属性転送メトリクスのメタ評価
- Authors: Amalie Brogaard Pauli, Isabelle Augenstein, Ira Assent,
- Abstract要約: 本稿では,スタイル評価と属性伝達のためのメトリクスのメタ評価を行う。
既存のデータセットに対するメタ評価研究は、コンテンツ保存のためのメトリクスの適合性に関する誤解を招く。
本稿では,スタイル転送のためのコンテンツ保存指標を評価するための新しいテストセットを提案する。
- 参考スコア(独自算出の注目度): 41.052284715017606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) make it easy to rewrite a text in any style -- e.g. to make it more polite, persuasive, or more positive -- but evaluation thereof is not straightforward. A challenge lies in measuring content preservation: that content not attributable to style change is retained. This paper presents a large meta-evaluation of metrics for evaluating style and attribute transfer, focusing on content preservation. We find that meta-evaluation studies on existing datasets lead to misleading conclusions about the suitability of metrics for content preservation. Widely used metrics show a high correlation with human judgments despite being deemed unsuitable for the task -- because they do not abstract from style changes when evaluating content preservation. We show that the overly high correlations with human judgment stem from the nature of the test data. To address this issue, we introduce a new, challenging test set specifically designed for evaluating content preservation metrics for style transfer. Using this dataset, we demonstrate that suitable metrics for content preservation for style transfer indeed are style-aware. To support efficient evaluation, we propose a new style-aware method that utilises small language models, obtaining a higher alignment with human judgements than prompting a model of a similar size as an autorater.
- Abstract(参考訳): 大きな言語モデル(LLM)は、どんなスタイルでも簡単にテキストを書き直すことができます -- 例えば、より丁寧で説得力があり、よりポジティブなものにします -- しかし、その評価は簡単ではありません。
コンテンツ保存を測定することの課題は、スタイル変更に起因するコンテンツが保持されることである。
本稿では,コンテンツ保存に焦点をあてて,スタイル評価と属性伝達の指標を大規模にメタ評価する。
既存のデータセットに対するメタ評価研究は、コンテンツ保存のためのメトリクスの適合性に関する誤解を招く。
広く使われているメトリクスは、コンテンツ保存を評価する際にスタイルの変更を抽象化しないため、タスクに適さないとみなされているにもかかわらず、人間の判断と高い相関を示す。
人間の判断と過度に高い相関関係がテストデータの性質に起因していることが示される。
この問題に対処するために、我々はスタイル転送のためのコンテンツ保存メトリクスを評価するために特別に設計された、新しい挑戦的なテストセットを導入する。
このデータセットを用いて、スタイル転送のためのコンテンツ保存に適したメトリクスが実際にスタイルアウェアであることを示す。
提案手法は,より効率的な評価を支援するために,小型言語モデルを利用した新しいスタイルアウェア手法を提案する。
関連論文リスト
- LMStyle Benchmark: Evaluating Text Style Transfer for Chatbots [0.0]
LMStyle Benchmarkはチャットスタイルのテキストスタイル転送(C-TST)に適用可能な評価フレームワークである
スタイルの強度測定に加えて、LMStyle Benchmarkは適切性と呼ばれるメトリクスの新たな側面について検討している。
実験により,新しい評価手法は,適切性の観点から人的判断と高い相関性を有することが示された。
論文 参考訳(メタデータ) (2024-03-13T20:19:30Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - APPLS: Evaluating Evaluation Metrics for Plain Language Summarization [18.379461020500525]
本研究では,Plain Language Summarization (PLS) のメトリクス評価を目的とした,詳細なメタ評価テストベッド APPLS を提案する。
従来の作業から4つのPLS基準を特定し,これらの基準に対応する摂動のセットを定義した。
APPLSを用いて、自動スコア、語彙特徴、LLMプロンプトに基づく評価を含む14のメトリクスのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-05-23T17:59:19Z) - Measuring the Measuring Tools: An Automatic Evaluation of Semantic
Metrics for Text Corpora [5.254054636427663]
テキストコーパス間の意味的類似性を比較する能力は、さまざまな自然言語処理アプリケーションにおいて重要である。
本稿では,コーパスレベルの意味的類似度指標の特性を評価するための,自動的かつ解釈可能な尺度を提案する。
論文 参考訳(メタデータ) (2022-11-29T14:47:07Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - Politeness Transfer: A Tag and Generate Approach [167.9924201435888]
本稿では, 丁寧性伝達の新たな課題について紹介する。
意味を保ちながら、非政治的な文を丁寧な文に変換することを含む。
我々はタグを設計し、スタイル属性を識別するパイプラインを生成し、その後、ターゲットスタイルで文を生成する。
論文 参考訳(メタデータ) (2020-04-29T15:08:53Z) - Extending Text Informativeness Measures to Passage Interestingness
Evaluation (Language Model vs. Word Embedding) [1.2998637003026272]
本稿では、インフォマティヴネスの概念をインフォマティヴネスの一般化として定義する。
次に、この一般化に対応するために、アートインフォーマティヴネス対策の状態を調査する。
CLEF-INEX Tweet Contextualization 2012 Logarithm similarity measure が最適であることを示す。
論文 参考訳(メタデータ) (2020-04-14T18:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。