論文の概要: Resource for Error Analysis in Text Simplification: New Taxonomy and Test Collection
- arxiv url: http://arxiv.org/abs/2505.16392v1
- Date: Thu, 22 May 2025 08:45:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.157158
- Title: Resource for Error Analysis in Text Simplification: New Taxonomy and Test Collection
- Title(参考訳): テキスト簡易化における誤り分析のための資源:新しい分類法とテストコレクション
- Authors: Benjamin Vendeville, Liana Ermakova, Pierre De Loor,
- Abstract要約: 本稿では,簡易テキストにおける誤りの検出と分類のためのテストコレクションを提案する。
まず,情報歪みに着目した誤り分類を提案する。
次に、自動単純化された科学的テキストの並列データセットを提案する。
- 参考スコア(独自算出の注目度): 0.5939858158928474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The general public often encounters complex texts but does not have the time or expertise to fully understand them, leading to the spread of misinformation. Automatic Text Simplification (ATS) helps make information more accessible, but its evaluation methods have not kept up with advances in text generation, especially with Large Language Models (LLMs). In particular, recent studies have shown that current ATS metrics do not correlate with the presence of errors. Manual inspections have further revealed a variety of errors, underscoring the need for a more nuanced evaluation framework, which is currently lacking. This resource paper addresses this gap by introducing a test collection for detecting and classifying errors in simplified texts. First, we propose a taxonomy of errors, with a formal focus on information distortion. Next, we introduce a parallel dataset of automatically simplified scientific texts. This dataset has been human-annotated with labels based on our proposed taxonomy. Finally, we analyze the quality of the dataset, and we study the performance of existing models to detect and classify errors from that taxonomy. These contributions give researchers the tools to better evaluate errors in ATS, develop more reliable models, and ultimately improve the quality of automatically simplified texts.
- Abstract(参考訳): 一般大衆はしばしば複雑なテキストに遭遇するが、それらを完全に理解する時間や専門知識がないため、誤報が広まる。
自動テキスト単純化(ATS)は、情報をよりアクセスしやすいものにするが、その評価手法は、特にLarge Language Models(LLMs)において、テキスト生成の進歩に追随していない。
特に最近の研究では、現在のATS測定値がエラーの有無と相関していないことが示されている。
手動検査により、さまざまなエラーが明らかになり、現在不足している、よりニュアンスな評価フレームワークの必要性が強調された。
本論文は, 簡易テキストにおける誤りの検出と分類を行うテストコレクションを導入することで, このギャップに対処する。
まず,情報歪みに着目した誤り分類を提案する。
次に、自動単純化された科学的テキストの並列データセットを提案する。
このデータセットには,提案した分類に基づくラベルが添付されている。
最後に、データセットの品質を分析し、既存のモデルの性能を調べ、その分類から誤りを検出し分類する。
これらの貢献により、研究者はATSのエラーをよりよく評価し、より信頼性の高いモデルを開発し、最終的に自動的に単純化されたテキストの品質を改善するツールが提供される。
関連論文リスト
- Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。
PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。
PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文 参考訳(メタデータ) (2025-03-06T09:14:02Z) - Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - What's under the hood: Investigating Automatic Metrics on Meeting Summarization [7.234196390284036]
会議要約は、オンライン交流の増加を考慮した重要な課題となっている。
現在のデフォルトのメトリクスは、観測可能なエラーをキャプチャするのに苦労しており、相関が弱い。
特定のエラーに正確に反応するのはサブセットのみであり、ほとんどの相関関係は、エラーが要約品質に与える影響を反映していないか、あるいは失敗していることを示している。
論文 参考訳(メタデータ) (2024-04-17T07:15:07Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - CoCo: Coherence-Enhanced Machine-Generated Text Detection Under Data
Limitation With Contrastive Learning [14.637303913878435]
低リソースシナリオ下でMGTを検出するために,コヒーレンスに基づくコントラスト学習モデルCoCoを提案する。
言語的特徴を活用するために,グラフ形式でコヒーレンス情報をテキスト表現にエンコードする。
2つの公開データセットと2つの自己構築データセットの実験結果は、我々のアプローチが最先端の手法を大幅に上回っていることを証明している。
論文 参考訳(メタデータ) (2022-12-20T15:26:19Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - Evaluating Factuality in Text Simplification [43.94402649899681]
標準的な単純化データセットから抽出された参照と最先端のモデル出力の両方を解析するために,エラーの分類を導入する。
既存の評価指標では捉えられないエラーが、両方に現れることがよくあります。
論文 参考訳(メタデータ) (2022-04-15T17:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。