論文の概要: Evaluating Factuality in Text Simplification
- arxiv url: http://arxiv.org/abs/2204.07562v1
- Date: Fri, 15 Apr 2022 17:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 15:24:55.072666
- Title: Evaluating Factuality in Text Simplification
- Title(参考訳): テキスト簡易化におけるファクチュアリティの評価
- Authors: Ashwin Devaraj, William Sheffield, Byron C. Wallace, Junyi Jessy Li
- Abstract要約: 標準的な単純化データセットから抽出された参照と最先端のモデル出力の両方を解析するために,エラーの分類を導入する。
既存の評価指標では捉えられないエラーが、両方に現れることがよくあります。
- 参考スコア(独自算出の注目度): 43.94402649899681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated simplification models aim to make input texts more readable. Such
methods have the potential to make complex information accessible to a wider
audience, e.g., providing access to recent medical literature which might
otherwise be impenetrable for a lay reader. However, such models risk
introducing errors into automatically simplified texts, for instance by
inserting statements unsupported by the corresponding original text, or by
omitting key information. Providing more readable but inaccurate versions of
texts may in many cases be worse than providing no such access at all. The
problem of factual accuracy (and the lack thereof) has received heightened
attention in the context of summarization models, but the factuality of
automatically simplified texts has not been investigated. We introduce a
taxonomy of errors that we use to analyze both references drawn from standard
simplification datasets and state-of-the-art model outputs. We find that errors
often appear in both that are not captured by existing evaluation metrics,
motivating a need for research into ensuring the factual accuracy of automated
simplification models.
- Abstract(参考訳): 自動単純化モデルは入力テキストをより読みやすくすることを目的としている。
このような手法は、例えば最近の医学文献へのアクセスを提供するなど、より広い読者に複雑な情報をアクセスできるようにする可能性がある。
しかし、そのようなモデルは、例えば、対応する原文によって否定された文を挿入したり、キー情報を省略したりすることで、自動的に単純化されたテキストにエラーを導入するリスクを負う。
より読みやすいが不正確なテキストを提供することは、多くの場合、そのようなアクセスを提供しないよりも悪い。
要約モデルでは, 事実精度の問題(およびその欠如)が注目されているが, 自動簡易テキストの事実性については検討されていない。
我々は、標準単純化データセットと最先端モデルの出力から引き出された参照を解析するために使用するエラーの分類法を紹介する。
既存の評価指標によって捉えられていない2つのエラーによく現れ、自動化された単純化モデルの事実的正確性を保証する研究の必要性を動機付けている。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - Label-Descriptive Patterns and their Application to Characterizing
Classification Errors [31.272875287136426]
最先端のディープラーニング手法は多くのタスクで人間のようなパフォーマンスを達成するが、それでもエラーを犯す。
これらのエラーを容易に解釈可能な言葉で特徴付けることは、モデルが体系的なエラーを起こす傾向にあるかどうかの洞察を与えるだけでなく、モデルを実行し改善する方法を与える。
本稿では,予測の正しさに応じて分割された入力データを簡潔に記述するパターンの小さなセットをマイニングすることにより,任意の分類器に対して,任意の分類を行うことができる手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T19:42:21Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Fine-tuning GPT-3 for Russian Text Summarization [77.34726150561087]
本稿では,テキストを要約するruGPT3(ruGPT3)機能について紹介し,それに対応する人文要約を用いてロシア語ニュースのコーパスを微調整する。
得られたテキストを一連のメトリクスで評価し、アーキテクチャや損失関数に付加的な変更を加えることなく、我々のソリューションが最先端のモデルの性能を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-08-07T19:01:40Z) - Simple-QE: Better Automatic Quality Estimation for Text Simplification [22.222195626377907]
事前要約QE作業から適合したBERTに基づく品質推定(QE)モデルであるSimple-QEを提案する。
単純QEは人的品質判断とよく相関していることを示す。
また,人文テキストの複雑さを正確に予測するために,この手法を適用できることも示している。
論文 参考訳(メタデータ) (2020-12-22T22:02:37Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - Text as Environment: A Deep Reinforcement Learning Text Readability
Assessment Model [2.826553192869411]
最先端のテキスト可読性評価モデルの効率は、深層強化学習モデルを用いてさらに改善することができる。
WeebitとCambridge ExamsのモデルとBERTテキスト可読性モデルのような最先端のモデルを比較すると、他のモデルよりもはるかに少ない入力テキストで最先端の精度を達成できることが示される。
論文 参考訳(メタデータ) (2019-12-12T13:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。