論文の概要: Evaluation Under Imperfect Benchmarks and Ratings: A Case Study in Text Simplification
- arxiv url: http://arxiv.org/abs/2504.09394v2
- Date: Tue, 15 Apr 2025 23:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 11:15:20.065922
- Title: Evaluation Under Imperfect Benchmarks and Ratings: A Case Study in Text Simplification
- Title(参考訳): 不完全なベンチマークとレーティングによる評価:テキストの簡易化を事例として
- Authors: Joseph Liu, Yoonsoo Nam, Xinyue Cui, Swabha Swayamdipta,
- Abstract要約: 様々なサイズのモデルによって生成される単純化された文を特徴付けるテキスト単純化のための合成ベンチマークを提案する。
評価の結果,評価基準はアノテータ間の高い一致を示し,予想される傾向を反映していることがわかった。
第2に, LLM審査員(LLMs-as-a-jury)による自動評価は, テキスト簡易化評価において一貫した評価を得るのに十分であることを示す。
- 参考スコア(独自算出の注目度): 13.381644813030725
- License:
- Abstract: Despite the successes of language models, their evaluation remains a daunting challenge for new and existing tasks. We consider the task of text simplification, commonly used to improve information accessibility, where evaluation faces two major challenges. First, the data in existing benchmarks might not reflect the capabilities of current language models on the task, often containing disfluent, incoherent, or simplistic examples. Second, existing human ratings associated with the benchmarks often contain a high degree of disagreement, resulting in inconsistent ratings; nevertheless, existing metrics still have to show higher correlations with these imperfect ratings. As a result, evaluation for the task is not reliable and does not reflect expected trends (e.g., more powerful models being assigned higher scores). We address these challenges for the task of text simplification through three contributions. First, we introduce SynthSimpliEval, a synthetic benchmark for text simplification featuring simplified sentences generated by models of varying sizes. Through a pilot study, we show that human ratings on our benchmark exhibit high inter-annotator agreement and reflect the expected trend: larger models produce higher-quality simplifications. Second, we show that auto-evaluation with a panel of LLM judges (LLMs-as-a-jury) often suffices to obtain consistent ratings for the evaluation of text simplification. Third, we demonstrate that existing learnable metrics for text simplification benefit from training on our LLMs-as-a-jury-rated synthetic data, closing the gap with pure LLMs-as-a-jury for evaluation. Overall, through our case study on text simplification, we show that a reliable evaluation requires higher quality test data, which could be obtained through synthetic data and LLMs-as-a-jury ratings.
- Abstract(参考訳): 言語モデルの成功にもかかわらず、その評価は、新しいタスクや既存のタスクにとって驚くべき課題である。
本稿では,2つの大きな課題に直面する情報アクセシビリティ向上に一般的に使用されるテキスト単純化の課題について考察する。
まず、既存のベンチマークのデータはタスク上の現在の言語モデルの能力を反映していないかもしれない。
第二に、ベンチマークに関連する既存の人間のレーティングは、しばしば高い不一致を伴い、一貫性のないレーティングをもたらす。
その結果、タスクの評価は信頼性が低く、期待される傾向を反映していない(例えば、より高いスコアが割り当てられるより強力なモデルなど)。
本稿では,3つのコントリビューションを通じて,テキストの簡略化という課題に対処する。
まずSynthSimpliEvalを紹介する。SynthSimpliEvalは、さまざまなサイズのモデルによって生成される単純化された文を特徴とする、テキスト単純化のための合成ベンチマークである。
パイロットスタディを通じて、我々のベンチマークにおける人間の評価は、高いアノテータ間合意を示し、期待される傾向を反映している。
第2に, LLM審査員(LLMs-as-a-jury)による自動評価は, テキスト簡易化評価において一貫した評価を得るのに十分であることを示す。
第3に,文章の簡易化のための既存の学習可能な指標は,LLMを判断基準とした判断基準付き合成データのトレーニングにより,評価のための純粋なLLMを判断基準とするギャップを埋めることによって得られることを実証する。
テキストの簡易化に関するケーススタディを通じて、信頼性の高い評価には高品質なテストデータが必要であることを示し、これは合成データとLLM-as-a-jury評価によって得られることを示した。
関連論文リスト
- Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - Factual Dialogue Summarization via Learning from Large Language Models [35.63037083806503]
大規模言語モデル(LLM)に基づく自動テキスト要約モデルは、より現実的に一貫した要約を生成する。
ゼロショット学習を用いて、LLMから記号的知識を抽出し、事実整合性(正)および矛盾性(負)の要約を生成する。
各種自動評価指標で確認したように,コヒーレンス,フラレンシ,関連性を保ちながら,より優れた事実整合性を実現する。
論文 参考訳(メタデータ) (2024-06-20T20:03:37Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - An In-depth Evaluation of Large Language Models in Sentence Simplification with Error-based Human Assessment [9.156064716689833]
本研究は, 評価の信頼性を確保しつつ, LLMの性能に関する詳細な知見を提供する。
我々は、GPT-4、Qwen2.5-72B、Llama-3.2-3Bを含む、クローズドソースとオープンソースの両方のLLMを選択する。
その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。
しかし、LPMには、GPT-4やQwen2.5-72Bの語彙パラフレージングとの戦いに見られるような制限がある。
論文 参考訳(メタデータ) (2024-03-08T00:19:24Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Simplicity Level Estimate (SLE): A Learned Reference-Less Metric for
Sentence Simplification [8.479659578608233]
文単純化のための学習評価基準(SLE)を提案する。
SLEは単純さに重点を置いており、人間の判断と相関して既存の指標のほとんどを上回ります。
論文 参考訳(メタデータ) (2023-10-12T09:49:10Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Factually Consistent Summarization via Reinforcement Learning with
Textual Entailment Feedback [57.816210168909286]
我々は,この問題を抽象的な要約システムで解くために,テキストエンテーメントモデルの最近の進歩を活用している。
我々は、事実整合性を最適化するために、レファレンスフリーのテキストエンターメント報酬を用いた強化学習を用いる。
自動測定と人的評価の両結果から,提案手法は生成した要約の忠実さ,サリエンス,簡潔さを著しく向上させることが示された。
論文 参考訳(メタデータ) (2023-05-31T21:04:04Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。