論文の概要: A Meta-Evaluation of Style and Attribute Transfer Metrics
- arxiv url: http://arxiv.org/abs/2502.15022v1
- Date: Thu, 20 Feb 2025 20:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:09:58.129417
- Title: A Meta-Evaluation of Style and Attribute Transfer Metrics
- Title(参考訳): スタイルと属性転送メトリクスのメタ評価
- Authors: Amalie Brogaard Pauli, Isabelle Augenstein, Ira Assent,
- Abstract要約: LLMは、どんなスタイルでもテキストを書き直しやすく、より丁寧で説得力があり、よりポジティブです。
本稿では,コンテンツ保存に着目したスタイルと属性伝達の評価指標を大規模に検討する。
- 参考スコア(独自算出の注目度): 41.052284715017606
- License:
- Abstract: LLMs make it easy to rewrite text in any style, be it more polite, persuasive, or more positive. We present a large-scale study of evaluation metrics for style and attribute transfer with a focus on content preservation; meaning content not attributed to the style shift is preserved. The de facto evaluation approach uses lexical or semantic similarity metrics often between source sentences and rewrites. While these metrics are not designed to distinguish between style or content differences, empirical meta-evaluation shows a reasonable correlation to human judgment. In fact, recent works find that LLMs prompted as evaluators are only comparable to semantic similarity metrics, even though intuitively, the LLM approach should better fit the task. To investigate this discrepancy, we benchmark 8 metrics for evaluating content preservation on existing datasets and additionally construct a new test set that better aligns with the meta-evaluation aim. Indeed, we then find that the empirical conclusion aligns with the intuition: content preservation metrics for style/attribute transfer must be conditional on the style shift. To support this, we propose a new efficient zero-shot evaluation method using the likelihood of the next token. We hope our meta-evaluation can foster more research on evaluating content preservation metrics, and also to ensure fair evaluation of methods for conducting style transfer.
- Abstract(参考訳): LLMは、どんなスタイルでもテキストを書き直しやすく、より丁寧で説得力があり、よりポジティブです。
本稿では,コンテンツ保存に着目したスタイルと属性伝達の評価指標を大規模に検討し,スタイルシフトに起因しないコンテンツが保存されることを示す。
デファクト評価アプローチは、しばしばソース文と書き直しの間の語彙的または意味的類似度メトリクスを使用する。
これらの指標はスタイルや内容の違いを区別するために設計されていないが、経験的メタ評価は人間の判断に合理的な相関を示す。
実のところ、近年の研究では、評価子として誘導されるLLMは、直感的にはLLMアプローチがタスクに適合しているにもかかわらず、意味的類似性メトリクスにしか匹敵しないことがわかった。
この相違を調査するため,既存のデータセットのコンテンツ保存を評価するための8つの指標をベンチマークし,メタ評価の目的に適合する新しいテストセットを構築した。
実際、経験的な結論は直感と一致する:スタイル/属性転送のためのコンテンツ保存メトリクスは、スタイルシフトで条件付きでなければならない。
これを支援するために,次のトークンの確率を用いた効率的なゼロショット評価手法を提案する。
我々のメタ評価は、コンテンツ保存メトリクスの評価に関するさらなる研究を促進するとともに、スタイル転送を行う方法の公平な評価を確実にしたいと思っています。
関連論文リスト
- LMStyle Benchmark: Evaluating Text Style Transfer for Chatbots [0.0]
LMStyle Benchmarkはチャットスタイルのテキストスタイル転送(C-TST)に適用可能な評価フレームワークである
スタイルの強度測定に加えて、LMStyle Benchmarkは適切性と呼ばれるメトリクスの新たな側面について検討している。
実験により,新しい評価手法は,適切性の観点から人的判断と高い相関性を有することが示された。
論文 参考訳(メタデータ) (2024-03-13T20:19:30Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Measuring the Measuring Tools: An Automatic Evaluation of Semantic
Metrics for Text Corpora [5.254054636427663]
テキストコーパス間の意味的類似性を比較する能力は、さまざまな自然言語処理アプリケーションにおいて重要である。
本稿では,コーパスレベルの意味的類似度指標の特性を評価するための,自動的かつ解釈可能な尺度を提案する。
論文 参考訳(メタデータ) (2022-11-29T14:47:07Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - Politeness Transfer: A Tag and Generate Approach [167.9924201435888]
本稿では, 丁寧性伝達の新たな課題について紹介する。
意味を保ちながら、非政治的な文を丁寧な文に変換することを含む。
我々はタグを設計し、スタイル属性を識別するパイプラインを生成し、その後、ターゲットスタイルで文を生成する。
論文 参考訳(メタデータ) (2020-04-29T15:08:53Z) - Extending Text Informativeness Measures to Passage Interestingness
Evaluation (Language Model vs. Word Embedding) [1.2998637003026272]
本稿では、インフォマティヴネスの概念をインフォマティヴネスの一般化として定義する。
次に、この一般化に対応するために、アートインフォーマティヴネス対策の状態を調査する。
CLEF-INEX Tweet Contextualization 2012 Logarithm similarity measure が最適であることを示す。
論文 参考訳(メタデータ) (2020-04-14T18:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。