論文の概要: Evaluating the Evaluators: Are readability metrics good measures of readability?
- arxiv url: http://arxiv.org/abs/2508.19221v1
- Date: Tue, 26 Aug 2025 17:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.935478
- Title: Evaluating the Evaluators: Are readability metrics good measures of readability?
- Title(参考訳): 評価者を評価する: 可読性のメトリクスは可読性の優れた測定基準か?
- Authors: Isabel Cachola, Daniel Khashabi, Mark Dredze,
- Abstract要約: 平易な言語要約 (PLS) は, 複雑な文書を, 専門家でない聴衆のために, アクセス可能な要約に抽出することを目的としている。
Flesch-Kincaid Grade Level (FKGL)のような従来の可読性指標は、PLSの人間の可読性判定と比較されていない。
言語モデル(LM)は可読性の判断に優れており,Pearsonと人間の判断との相関が0.56であることを示す。
- 参考スコア(独自算出の注目度): 36.138020084479784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Plain Language Summarization (PLS) aims to distill complex documents into accessible summaries for non-expert audiences. In this paper, we conduct a thorough survey of PLS literature, and identify that the current standard practice for readability evaluation is to use traditional readability metrics, such as Flesch-Kincaid Grade Level (FKGL). However, despite proven utility in other fields, these metrics have not been compared to human readability judgments in PLS. We evaluate 8 readability metrics and show that most correlate poorly with human judgments, including the most popular metric, FKGL. We then show that Language Models (LMs) are better judges of readability, with the best-performing model achieving a Pearson correlation of 0.56 with human judgments. Extending our analysis to PLS datasets, which contain summaries aimed at non-expert audiences, we find that LMs better capture deeper measures of readability, such as required background knowledge, and lead to different conclusions than the traditional metrics. Based on these findings, we offer recommendations for best practices in the evaluation of plain language summaries. We release our analysis code and survey data.
- Abstract(参考訳): 平易な言語要約 (PLS) は, 複雑な文書を, 専門家でない聴衆のために, アクセス可能な要約に抽出することを目的としている。
本稿では,PLS文献の徹底的な調査を行い,Flesch-Kincaid Grade Level (FKGL) などの従来の可読性指標を使用することを確認した。
しかし、他の分野では有益であることが証明されているにもかかわらず、これらの指標はPLSの人間の可読性判定と比べられていない。
我々は8つの可読性指標を評価し、最も一般的な指標であるFKGLを含め、ほとんどの指標が人間の判断と相関しないことを示した。
次に,言語モデル (LM) が可読性の判断に優れており,Pearson と人間の判断との相関が 0.56 であることを示す。
非専門的な聴衆を対象とした要約を含むPLSデータセットに分析を拡張した結果、LMは必要なバックグラウンド知識などの読みやすさのより深い尺度をよりよく把握し、従来のメトリクスとは異なる結論をもたらすことがわかった。
これらの知見に基づき, 平易な言語要約の評価において, ベストプラクティスを推奨する。
分析コードをリリースし、データを調査します。
関連論文リスト
- Neither Valid nor Reliable? Investigating the Use of LLMs as Judges [23.16086453334644]
審査員としての大規模言語モデル(LLJ)は、従来のメトリクスに代わる有望な代替手段として現れてきたが、その妥当性は未検討のままである。
本論では,LLJに対する現在の熱意は,信頼性と妥当性に関する厳密な調査を評価対象として上回っているため,時期尚早である可能性が示唆された。
論文 参考訳(メタデータ) (2025-08-25T14:43:10Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - Reranking-based Generation for Unbiased Perspective Summarization [10.71668103641552]
我々は,人間のアノテーションを用いて,計量信頼性をベンチマークするテストセットを開発した。
従来の指標は言語モデルに基づく指標に比べて性能が低いことが示され、強力な評価指標であることが証明された。
本研究の目的は,視点要約手法の信頼性評価と開発に寄与することである。
論文 参考訳(メタデータ) (2025-06-19T00:01:43Z) - Leveraging LLMs to Evaluate Usefulness of Document [25.976948104719746]
本稿では,ユーザの検索コンテキストと行動データを大規模言語モデルに統合する,新たなユーザ中心評価フレームワークを提案する。
本研究は,文脈情報や行動情報に精通したLLMが有用性を正確に評価できることを実証する。
また,本手法で作成したラベルをユーザ満足度予測に適用し,実世界の実験により,これらのラベルが満足度予測モデルの性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-06-10T09:44:03Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。