論文の概要: AutoMeTS: The Autocomplete for Medical Text Simplification
- arxiv url: http://arxiv.org/abs/2010.10573v1
- Date: Tue, 20 Oct 2020 19:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 07:05:19.801710
- Title: AutoMeTS: The Autocomplete for Medical Text Simplification
- Title(参考訳): AutoMeTS: 医療用テキストの簡易化のためのオートコンプリート
- Authors: Hoang Van, David Kauchak, Gondy Leroy
- Abstract要約: 簡単な英語のウィキペディア文と整列した英語のウィキペディアからなる,新たな並列医療データセットを提案する。
より優れた結果を得るために, 単純化すべき文の追加コンテキストを組み込むことが可能であることを示す。
また、4つのPNLMを組み合わせるアンサンブルモデルを導入し、2.1%の精度で最高の個人モデルより優れています。
- 参考スコア(独自算出の注目度): 9.18959130745234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of text simplification (TS) is to transform difficult text into a
version that is easier to understand and more broadly accessible to a wide
variety of readers. In some domains, such as healthcare, fully automated
approaches cannot be used since information must be accurately preserved.
Instead, semi-automated approaches can be used that assist a human writer in
simplifying text faster and at a higher quality. In this paper, we examine the
application of autocomplete to text simplification in the medical domain. We
introduce a new parallel medical data set consisting of aligned English
Wikipedia with Simple English Wikipedia sentences and examine the application
of pretrained neural language models (PNLMs) on this dataset. We compare four
PNLMs(BERT, RoBERTa, XLNet, and GPT-2), and show how the additional context of
the sentence to be simplified can be incorporated to achieve better results
(6.17% absolute improvement over the best individual model). We also introduce
an ensemble model that combines the four PNLMs and outperforms the best
individual model by 2.1%, resulting in an overall word prediction accuracy of
64.52%.
- Abstract(参考訳): テキスト単純化(TS)の目標は、難易度の高いテキストを、より理解しやすく、より幅広い読者にアクセスできるバージョンに変換することである。
医療など一部の領域では、情報を正確に保存しなければならないため、完全に自動化されたアプローチは使用できない。
代わりに、人間ライターがテキストを高速かつ高品質に単純化するのを補助する半自動化アプローチを使用することができる。
本稿では,医療領域におけるテキスト簡易化への自動補完の適用について検討する。
本稿では,単純な英語ウィキペディア文を用いた英語ウィキペディアの並列化と,このデータセットへの事前学習型ニューラル言語モデル(pnlms)の適用について検討する。
我々は,4つのPNLM(BERT,RoBERTa,XLNet,GPT-2)を比較し,より優れた結果を得るために,単純化すべき文の追加コンテキストを組み込む方法を示す(最高の個々のモデルに対して6.17%の絶対的な改善)。
また、4つのpnlmを組み合わせたアンサンブルモデルを導入し、最良の個人モデルの2.1%を上回り、全体の単語予測精度が64.52%となる。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - Short Answer Grading Using One-shot Prompting and Text Similarity
Scoring Model [2.14986347364539]
分析スコアと全体スコアの両方を提供する自動短解階調モデルを開発した。
このモデルの精度と2次重み付きカッパは、ASAGデータセットのサブセットである0.67と0.71であった。
論文 参考訳(メタデータ) (2023-05-29T22:05:29Z) - Prompt-based Learning for Text Readability Assessment [0.4757470449749875]
可読性評価のための事前学習されたSeq2seqモデルの新規適応を提案する。
与えられた2つのテキストからより難しいテキストを区別するために、Seq2seqモデルを適用できることを実証する。
論文 参考訳(メタデータ) (2023-02-25T18:39:59Z) - Exploiting Summarization Data to Help Text Simplification [50.0624778757462]
テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化を行った。
我々はこれらのペアをSum4Simp (S4S) と命名し,S4Sが高品質であることを示す人間評価を行った。
論文 参考訳(メタデータ) (2023-02-14T15:32:04Z) - NapSS: Paragraph-level Medical Text Simplification via Narrative
Prompting and Sentence-matching Summarization [46.772517928718216]
そこで我々はNapSSと呼ばれる2段階戦略を提案する。
NapSSは、オリジナルの物語の流れが保存されていることを保証しながら、関連コンテンツを特定し、単純化する。
本モデルは,英語医療コーパスのSeq2seqベースラインよりも有意に優れている。
論文 参考訳(メタデータ) (2023-02-11T02:20:25Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Neural CRF Model for Sentence Alignment in Text Simplification [31.62648025127563]
我々は、通常使われている2つのテキスト単純化コーパス、Newsela、Wikipediaから、手動で注釈付き文整列データセットを作成する。
実験により, 提案手法はF1の5点以上の単言語文アライメントタスクにおいて, これまでの作業よりも優れていたことがわかった。
データセットに基づいてトレーニングされたTransformerベースのseq2seqモデルは、自動評価と人的評価の両方において、テキストの簡略化のための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2020-05-05T16:47:51Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。