論文の概要: Do Text Simplification Systems Preserve Meaning? A Human Evaluation via
Reading Comprehension
- arxiv url: http://arxiv.org/abs/2312.10126v1
- Date: Fri, 15 Dec 2023 14:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:22:42.241289
- Title: Do Text Simplification Systems Preserve Meaning? A Human Evaluation via
Reading Comprehension
- Title(参考訳): テキスト単純化システムは意味を保存するか?
読書理解による人的評価
- Authors: Sweta Agrawal, Marine Carpuat
- Abstract要約: 簡単な文章が意味を保っているかどうかを,読解質問を用いて評価するための人的評価フレームワークを提案する。
我々は、人間によるテキストと9つの自動システムによるテキストの徹底的な評価を行う。
- 参考スコア(独自算出の注目度): 22.154454849167077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic text simplification (TS) aims to automate the process of rewriting
text to make it easier for people to read. A pre-requisite for TS to be useful
is that it should convey information that is consistent with the meaning of the
original text. However, current TS evaluation protocols assess system outputs
for simplicity and meaning preservation without regard for the document context
in which output sentences occur and for how people understand them. In this
work, we introduce a human evaluation framework to assess whether simplified
texts preserve meaning using reading comprehension questions. With this
framework, we conduct a thorough human evaluation of texts by humans and by
nine automatic systems. Supervised systems that leverage pre-training knowledge
achieve the highest scores on the reading comprehension (RC) tasks amongst the
automatic controllable TS systems. However, even the best-performing supervised
system struggles with at least 14% of the questions, marking them as
"unanswerable'' based on simplified content. We further investigate how
existing TS evaluation metrics and automatic question-answering systems
approximate the human judgments we obtained.
- Abstract(参考訳): 自動テキスト単純化(TS)は、テキストの書き直しプロセスを自動化することで、読みやすくすることを目的としている。
TSが有用であることの前提条件は、元のテキストの意味と一致した情報を伝達することである。
しかし、現在のts評価プロトコルは、出力文が現れる文書コンテキストや、その理解方法によらず、簡潔さと意味の保存のためにシステム出力を評価する。
そこで本研究では,要約文が意味を保っているかどうかを,理解質問の読解を用いて評価するための評価フレームワークを提案する。
この枠組みを用いて,人間と9つの自動システムによるテキストの徹底的な人間による評価を行う。
事前学習知識を活用する監視システムは、自動制御可能なTSシステムの中で、読解理解(RC)タスクの最高スコアを達成する。
しかし、最も優れた監督されたシステムでさえ、少なくとも14%の質問に苦しめられ、単純化されたコンテンツに基づいて「答えられない」と表現している。
さらに,既存のts評価指標と自動質問応答システムについて検討した。
関連論文リスト
- Evaluating LLMs for Targeted Concept Simplification for Domain-Specific Texts [53.421616210871704]
コンテクストの欠如と難解な概念に対する不慣れさは、大人の読者がドメイン固有のテキストに難渋する大きな理由である。
テキストの書き直しを簡略化し,不慣れな概念を含むテキストの理解を支援する「目標概念の簡略化」を提案する。
本研究は,オープンソースおよび商用LLMの性能と,この課題に対する簡単な辞書ベースラインのベンチマークを行う。
論文 参考訳(メタデータ) (2024-10-28T05:56:51Z) - Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - Digital Comprehensibility Assessment of Simplified Texts among Persons
with Intellectual Disabilities [2.446971913303003]
本研究は,タブレットコンピュータ上でドイツ語のテキストを読み取る知的障害を有する者を含むテキスト理解度の評価を行った。
複数選択的理解質問、難易度評価、応答時間、読解速度の4つの異なる方法について検討した。
知的障害者の対象群では,読解速度の分析が参加者の読解行動に有意な洞察を与える一方で,最も信頼性の高い尺度として理解的疑問が出現した。
論文 参考訳(メタデータ) (2024-02-20T15:37:08Z) - ChatPRCS: A Personalized Support System for English Reading
Comprehension based on ChatGPT [3.847982502219679]
本稿では,ChatPRCSと呼ばれる読解支援システムを提案する。
ChatPRCSは、理解能力予測、質問生成、自動評価などの手法を採用している。
論文 参考訳(メタデータ) (2023-09-22T11:46:44Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Controlling Pre-trained Language Models for Grade-Specific Text
Simplification [22.154454849167077]
本研究では,異なる制御機構がテキスト単純化システムの妥当性と簡易性に与える影響について検討する。
本稿では,インスタンス単位のインスタンス単位で,特定のグレードレベルのテキストを簡略化するために必要な編集操作を簡易に予測する手法を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:29:45Z) - LENS: A Learnable Evaluation Metric for Text Simplification [17.48383068498169]
テキスト単純化のための学習可能な評価指標であるLENSを提案する。
また、ランクとレートについても紹介します。これは、リストワイドで複数のモデルから単純化を評価する人間の評価フレームワークです。
論文 参考訳(メタデータ) (2022-12-19T18:56:52Z) - Open-Retrieval Conversational Machine Reading [80.13988353794586]
会話機械読解では、システムは自然言語規則を解釈し、ハイレベルな質問に答え、フォローアップの明確化を問う必要がある。
既存の作業では、ルールテキストがユーザ毎の質問に対して提供されると仮定し、実際のシナリオにおいて必須の検索ステップを無視する。
本研究では,対話型機械読解のオープンリトリーバル設定を提案し,検討する。
論文 参考訳(メタデータ) (2021-02-17T08:55:01Z) - Simple-QE: Better Automatic Quality Estimation for Text Simplification [22.222195626377907]
事前要約QE作業から適合したBERTに基づく品質推定(QE)モデルであるSimple-QEを提案する。
単純QEは人的品質判断とよく相関していることを示す。
また,人文テキストの複雑さを正確に予測するために,この手法を適用できることも示している。
論文 参考訳(メタデータ) (2020-12-22T22:02:37Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。