論文の概要: LENS: A Learnable Evaluation Metric for Text Simplification
- arxiv url: http://arxiv.org/abs/2212.09739v1
- Date: Mon, 19 Dec 2022 18:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:54:59.680724
- Title: LENS: A Learnable Evaluation Metric for Text Simplification
- Title(参考訳): LENS: テキスト単純化のための学習可能な評価基準
- Authors: Mounica Maddela, Yao Dou, David Heineman, Wei Xu
- Abstract要約: 機械翻訳の自動評価のための有望な手法として,現代言語モデルを用いた学習可能なメトリクスのトレーニングが登場している。
テキスト簡易化のための学習可能な評価指標であるLENSについて述べる。
メトリック、データセット、アノテーションツールキットはhttps://github.com/Yao-Dou/LENS.orgで公開されています。
- 参考スコア(独自算出の注目度): 17.48383068498169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training learnable metrics using modern language models has recently emerged
as a promising method for the automatic evaluation of machine translation.
However, existing human evaluation datasets in text simplification are limited
by a lack of annotations, unitary simplification types, and outdated models,
making them unsuitable for this approach. To address these issues, we introduce
the SIMPEVAL corpus that contains: SIMPEVAL_ASSET, comprising 12K human ratings
on 2.4K simplifications of 24 systems, and SIMPEVAL_2022, a challenging
simplification benchmark consisting of over 1K human ratings of 360
simplifications including generations from GPT-3.5. Training on SIMPEVAL_ASSET,
we present LENS, a Learnable Evaluation Metric for Text Simplification.
Extensive empirical results show that LENS correlates better with human
judgment than existing metrics, paving the way for future progress in the
evaluation of text simplification. To create the SIMPEVAL datasets, we
introduce RANK & RATE, a human evaluation framework that rates simplifications
from several models in a list-wise manner by leveraging an interactive
interface, which ensures both consistency and accuracy in the evaluation
process. Our metric, dataset, and annotation toolkit are available at
https://github.com/Yao-Dou/LENS.
- Abstract(参考訳): 近年,機械翻訳の自動評価手法として,現代言語モデルを用いた学習可能なメトリクスのトレーニングが注目されている。
しかし、テキスト単純化における既存の人間評価データセットは、アノテーション、ユニタリな単純化型、時代遅れのモデルが欠如しているため、このアプローチには適さない。
SIMPEVAL_ASSETは24のシステムの2.4Kの簡易化に12Kの人格評価を組み、SIMPEVAL_2022はGPT-3.5の世代を含む360の人格評価を1万以上の人格評価から成る挑戦的な単純化ベンチマークである。
SIMPEVAL_ASSETを用いたテキスト簡易化のための学習可能な評価指標LENSを提案する。
大規模な実証実験の結果,LENSは既存の指標よりも人間の判断と相関し,テキストの単純化評価における今後の進歩の道を開いた。
SIMPEVALデータセットを作成するために,対話型インターフェースを活用することで,複数のモデルからの単純化をリストワイズで評価し,評価プロセスにおける一貫性と精度を両立させる,RANK & RATEを導入した。
メトリック、データセット、アノテーションツールキットはhttps://github.com/Yao-Dou/LENS.orgで公開されています。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。
以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文 参考訳(メタデータ) (2024-06-30T16:12:37Z) - SemScore: Automated Evaluation of Instruction-Tuned LLMs based on
Semantic Textual Similarity [3.3162484539136416]
本稿では,SemScoreと呼ばれる簡易な評価尺度を提案する。
意味的テキスト類似度(STS)を用いたモデル出力とゴールドターゲット応答の比較
提案したSemScore測定基準は,人間の評価と相関する点において,より複雑な評価指標よりも優れていることが判明した。
論文 参考訳(メタデータ) (2024-01-30T14:52:50Z) - Towards Better Evaluation of Instruction-Following: A Case-Study in
Summarization [9.686937153317809]
本研究では,多種多様なメトリクスのメタ評価を行い,大規模言語モデルの指示追従能力の精度を定量的に評価する。
riSumを用いて評価方法と人的判断の一致を分析した。
論文 参考訳(メタデータ) (2023-10-12T15:07:11Z) - APPLS: Evaluating Evaluation Metrics for Plain Language Summarization [18.379461020500525]
本研究では,Plain Language Summarization (PLS) のメトリクス評価を目的とした,詳細なメタ評価テストベッド APPLS を提案する。
従来の作業から4つのPLS基準を特定し,これらの基準に対応する摂動のセットを定義した。
APPLSを用いて、自動スコア、語彙特徴、LLMプロンプトに基づく評価を含む14のメトリクスのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-05-23T17:59:19Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Simple-QE: Better Automatic Quality Estimation for Text Simplification [22.222195626377907]
事前要約QE作業から適合したBERTに基づく品質推定(QE)モデルであるSimple-QEを提案する。
単純QEは人的品質判断とよく相関していることを示す。
また,人文テキストの複雑さを正確に予測するために,この手法を適用できることも示している。
論文 参考訳(メタデータ) (2020-12-22T22:02:37Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。