論文の概要: Readability Reconsidered: A Cross-Dataset Analysis of Reference-Free Metrics
- arxiv url: http://arxiv.org/abs/2510.15345v1
- Date: Fri, 17 Oct 2025 06:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.491661
- Title: Readability Reconsidered: A Cross-Dataset Analysis of Reference-Free Metrics
- Title(参考訳): 可読性を再考する:参照なしメトリクスのクロスデータセット解析
- Authors: Catarina G Belem, Parker Glenn, Alfy Samuel, Anoop Kumar, Daben Liu,
- Abstract要約: 本研究は, 可読性に対する人間の知覚を形作る要因について, 897の判断分析を通して検討した。
5つの英データセットにまたがる15の可読性メトリクスを評価し、それらを6つのよりニュアンスなモデルベースのメトリクスと比較した。
モデルに基づく4つの指標は、ランクと人間の判断の相関において上位4つに一貫して含まれ、最も優れた伝統的な指標は平均8.6である。
- 参考スコア(独自算出の注目度): 4.729984735375468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic readability assessment plays a key role in ensuring effective and accessible written communication. Despite significant progress, the field is hindered by inconsistent definitions of readability and measurements that rely on surface-level text properties. In this work, we investigate the factors shaping human perceptions of readability through the analysis of 897 judgments, finding that, beyond surface-level cues, information content and topic strongly shape text comprehensibility. Furthermore, we evaluate 15 popular readability metrics across five English datasets, contrasting them with six more nuanced, model-based metrics. Our results show that four model-based metrics consistently place among the top four in rank correlations with human judgments, while the best performing traditional metric achieves an average rank of 8.6. These findings highlight a mismatch between current readability metrics and human perceptions, pointing to model-based approaches as a more promising direction.
- Abstract(参考訳): 自動可読性評価は、効果的でアクセスしやすい文書によるコミュニケーションを保証する上で重要な役割を担っている。
かなりの進歩にもかかわらず、この分野は、表面レベルのテキスト特性に依存する可読性や測定の矛盾した定義によって妨げられている。
本研究では,897の判断を解析することにより,可読性に対する人間の知覚を形作る要因について検討し,表面レベルの手がかり,情報内容,話題が文章の理解性を強く形作っていることを明らかにする。
さらに、5つの英データセットにまたがる15の可読性メトリクスを評価し、それらを6つのよりニュアンスなモデルベースのメトリクスと比較した。
これらの結果から, 従来の指標が平均8.6であるのに対して, モデルに基づく指標は, ランクと人的判断の相関関係の上位4つに一貫して配置されていることがわかった。
これらの結果は、現在の可読性メトリクスと人間の知覚のミスマッチを示し、モデルベースのアプローチをより有望な方向として示している。
関連論文リスト
- Evaluating the Evaluators: Are readability metrics good measures of readability? [36.138020084479784]
平易な言語要約 (PLS) は, 複雑な文書を, 専門家でない聴衆のために, アクセス可能な要約に抽出することを目的としている。
Flesch-Kincaid Grade Level (FKGL)のような従来の可読性指標は、PLSの人間の可読性判定と比較されていない。
言語モデル(LM)は可読性の判断に優れており,Pearsonと人間の判断との相関が0.56であることを示す。
論文 参考訳(メタデータ) (2025-08-26T17:38:42Z) - Reranking-based Generation for Unbiased Perspective Summarization [10.71668103641552]
我々は,人間のアノテーションを用いて,計量信頼性をベンチマークするテストセットを開発した。
従来の指標は言語モデルに基づく指標に比べて性能が低いことが示され、強力な評価指標であることが証明された。
本研究の目的は,視点要約手法の信頼性評価と開発に寄与することである。
論文 参考訳(メタデータ) (2025-06-19T00:01:43Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Measuring the Measuring Tools: An Automatic Evaluation of Semantic
Metrics for Text Corpora [5.254054636427663]
テキストコーパス間の意味的類似性を比較する能力は、さまざまな自然言語処理アプリケーションにおいて重要である。
本稿では,コーパスレベルの意味的類似度指標の特性を評価するための,自動的かつ解釈可能な尺度を提案する。
論文 参考訳(メタデータ) (2022-11-29T14:47:07Z) - On the Interpretability and Significance of Bias Metrics in Texts: a
PMI-based Approach [3.2326259807823026]
我々は、テキスト中のバイアスを定量化するために、別のPMIベースのメトリクスを分析する。
これは条件付き確率の関数として表すことができ、単語共起の言葉で簡単に解釈できる。
論文 参考訳(メタデータ) (2021-04-13T19:34:17Z) - LCEval: Learned Composite Metric for Caption Evaluation [37.2313913156926]
ニューラルネットワークに基づく学習指標を提案し,キャプションレベルのキャプション評価を改善する。
本稿では,異なる言語特徴と学習指標のキャプションレベルの相関関係について検討する。
提案手法は,キャプションレベルの相関で既存の指標を上回るだけでなく,人間評価に対するシステムレベルの相関性も示している。
論文 参考訳(メタデータ) (2020-12-24T06:38:24Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。