論文の概要: LENS: A Learnable Evaluation Metric for Text Simplification
- arxiv url: http://arxiv.org/abs/2212.09739v4
- Date: Fri, 7 Jul 2023 20:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 19:06:15.262277
- Title: LENS: A Learnable Evaluation Metric for Text Simplification
- Title(参考訳): LENS: テキスト単純化のための学習可能な評価基準
- Authors: Mounica Maddela, Yao Dou, David Heineman, Wei Xu
- Abstract要約: テキスト単純化のための学習可能な評価指標であるLENSを提案する。
また、ランクとレートについても紹介します。これは、リストワイドで複数のモデルから単純化を評価する人間の評価フレームワークです。
- 参考スコア(独自算出の注目度): 17.48383068498169
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Training learnable metrics using modern language models has recently emerged
as a promising method for the automatic evaluation of machine translation.
However, existing human evaluation datasets for text simplification have
limited annotations that are based on unitary or outdated models, making them
unsuitable for this approach. To address these issues, we introduce the
SimpEval corpus that contains: SimpEval_past, comprising 12K human ratings on
2.4K simplifications of 24 past systems, and SimpEval_2022, a challenging
simplification benchmark consisting of over 1K human ratings of 360
simplifications including GPT-3.5 generated text. Training on SimpEval, we
present LENS, a Learnable Evaluation Metric for Text Simplification. Extensive
empirical results show that LENS correlates much better with human judgment
than existing metrics, paving the way for future progress in the evaluation of
text simplification. We also introduce Rank and Rate, a human evaluation
framework that rates simplifications from several models in a list-wise manner
using an interactive interface, which ensures both consistency and accuracy in
the evaluation process and is used to create the SimpEval datasets.
- Abstract(参考訳): 近年,機械翻訳の自動評価手法として,現代言語モデルを用いた学習可能なメトリクスのトレーニングが注目されている。
しかしながら、既存のテキスト簡易化のための人間評価データセットには、ユニタリモデルや時代遅れモデルに基づいた限定的なアノテーションがあるため、このアプローチには適さない。
これらの問題に対処するために、SimpEval_pastは24のシステムの2.4Kの簡易化に対して12Kの人間格付けを含むSimpEvalコーパスと、GPT-3.5生成したテキストを含む1K以上の人間格付けからなる挑戦的な単純化ベンチマークSimpEval_2022を紹介する。
テキスト簡易化のための学習可能な評価指標であるLENSを提案する。
大規模な実証実験の結果、LENSは既存の指標よりも人間の判断と相関し、テキスト単純化の評価における今後の進歩の道を開いた。
また,対話型インタフェースを用いて,複数のモデルからの単純化をリスト形式で評価する評価フレームワークであるrank and rateを導入することで,評価プロセスにおける一貫性と精度の両立を保証し,シムペバルデータセットの作成に利用する。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。
以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文 参考訳(メタデータ) (2024-06-30T16:12:37Z) - SemScore: Automated Evaluation of Instruction-Tuned LLMs based on
Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。
意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較
提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-01-30T14:52:50Z) - Towards Better Evaluation of Instruction-Following: A Case-Study in
Summarization [9.686937153317809]
本研究では,多種多様なメトリクスのメタ評価を行い,大規模言語モデルの指示追従能力の精度を定量的に評価する。
riSumを用いて評価方法と人的判断の一致を分析した。
論文 参考訳(メタデータ) (2023-10-12T15:07:11Z) - APPLS: Evaluating Evaluation Metrics for Plain Language Summarization [18.379461020500525]
本研究では,Plain Language Summarization (PLS) のメトリクス評価を目的とした,詳細なメタ評価テストベッド APPLS を提案する。
従来の作業から4つのPLS基準を特定し,これらの基準に対応する摂動のセットを定義した。
APPLSを用いて、自動スコア、語彙特徴、LLMプロンプトに基づく評価を含む14のメトリクスのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-05-23T17:59:19Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Simple-QE: Better Automatic Quality Estimation for Text Simplification [22.222195626377907]
事前要約QE作業から適合したBERTに基づく品質推定(QE)モデルであるSimple-QEを提案する。
単純QEは人的品質判断とよく相関していることを示す。
また,人文テキストの複雑さを正確に予測するために,この手法を適用できることも示している。
論文 参考訳(メタデータ) (2020-12-22T22:02:37Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。