論文の概要: Not All Metrics Are Guilty: Improving NLG Evaluation with LLM
Paraphrasing
- arxiv url: http://arxiv.org/abs/2305.15067v1
- Date: Wed, 24 May 2023 11:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:17:43.161327
- Title: Not All Metrics Are Guilty: Improving NLG Evaluation with LLM
Paraphrasing
- Title(参考訳): すべての指標が有罪ではない: llmパラフレージングによるnlg評価の改善
- Authors: Tianyi Tang, Hongyuan Lu, Yuchen Eleanor Jiang, Haoyang Huang,
Dongdong Zhang, Wayne Xin Zhao, Furu Wei
- Abstract要約: Para-Refは、参照数を増やして評価ベンチマークを強化する新しい方法である。
我々は,大規模言語モデル(LLM)を用いて,単一の参照を多種多様な表現で複数の高品質なものに表現する。
提案手法は, 自動評価値16の相関を+7.82%の比率で効果的に改善することができる。
- 参考スコア(独自算出の注目度): 92.17776245159622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most research about natural language generation (NLG) relies on evaluation
benchmarks with limited references for a sample, which may result in poor
correlations with human judgements. The underlying reason is that one semantic
meaning can actually be expressed in different forms, and the evaluation with a
single or few references may not accurately reflect the quality of the model's
hypotheses. To address this issue, this paper presents a novel method, named
Para-Ref, to enhance existing evaluation benchmarks by enriching the number of
references. We leverage large language models (LLMs) to paraphrase a single
reference into multiple high-quality ones in diverse expressions. Experimental
results on representative NLG tasks of machine translation, text summarization,
and image caption demonstrate that our method can effectively improve the
correlation with human evaluation for sixteen automatic evaluation metrics by
+7.82% in ratio. We release the code and data at
https://github.com/RUCAIBox/Para-Ref.
- Abstract(参考訳): 自然言語生成(NLG)に関するほとんどの研究は、サンプルに対する限られた参照を持つ評価ベンチマークに依存しており、人間の判断と相関が低い可能性がある。
根本的な理由は、1つの意味意味が実際には異なる形で表現できるためであり、1つまたは少数の参照による評価はモデルの仮説の品質を正確に反映するものではないかもしれない。
そこで本研究では,参照回数を増大させることで,既存の評価ベンチマークを強化する手法であるPara-Refを提案する。
我々は,大規模言語モデル(LLM)を用いて,単一の参照を多種多様な表現で複数の高品質なものに表現する。
機械翻訳, テキスト要約, 画像キャプションなどの代表的NLGタスクに対する実験結果から, 自動評価指標を+7.82%の比率で評価することで, 人的評価との相関を効果的に改善できることが示された。
コードとデータはhttps://github.com/rucaibox/para-refでリリースします。
関連論文リスト
- RevisEval: Improving LLM-as-a-Judge via Response-Adapted References [95.29800580588592]
RevisEvalは、応答適応参照による新しいテキスト生成評価パラダイムである。
RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
論文 参考訳(メタデータ) (2024-10-07T16:50:47Z) - Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference? [3.2528685897001455]
本報告では,参照を必要とせず,既存の教師なし手法を用いてテキストの流速を計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
モデルの性能を評価するため,10言語を対象に比較分析を行った。
論文 参考訳(メタデータ) (2023-12-03T20:09:23Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - DocAsRef: An Empirical Study on Repurposing Reference-Based Summary
Quality Metrics Reference-Freely [29.4981129248937]
そこで本論文では,参照に基づくメトリクスを効果的に適用して,対応する参照に対してシステム概要を評価することを提案する。
ゼロショットのBERTScoreは、参照フリーで再利用された後、オリジナルの参照ベースバージョンよりも一貫してパフォーマンスが向上した。
GPT-3.5に基づくゼロショット要約評価器と密接に競合する。
論文 参考訳(メタデータ) (2022-12-20T06:01:13Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - Language Model Augmented Relevance Score [2.8314622515446835]
Language Model Augmented Relevance Score (MARS)は、NLG評価のための新しい文脈対応メトリックである。
MARSは、強化学習によってガイドされる既製の言語モデルを使用して、生成コンテキストと利用可能な人間の参照の両方を考慮した拡張参照を生成する。
論文 参考訳(メタデータ) (2021-08-19T03:59:23Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Reference and Document Aware Semantic Evaluation Methods for Korean
Language Summarization [6.826626737986031]
本稿では,参照要約と原文書の意味を反映した評価指標を提案する。
次に,人間の判断とメトリクスの相関性を改善する手法を提案する。
論文 参考訳(メタデータ) (2020-04-29T08:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。