論文の概要: Paragraph-level Simplification of Medical Texts
- arxiv url: http://arxiv.org/abs/2104.05767v1
- Date: Mon, 12 Apr 2021 18:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:35:48.083400
- Title: Paragraph-level Simplification of Medical Texts
- Title(参考訳): 医用テキストのパラグラフレベル簡易化
- Authors: Ashwin Devaraj, Iain J. Marshall, Byron C. Wallace, Junyi Jessy Li
- Abstract要約: 手動の簡略化は生物医学文献の急速に成長する体にスケールしません。
異なる臨床トピックに関連するすべての公開された証拠の技術的およびレイアウト要約からなる英語での平行テキストの新しいコーパスを紹介します。
本研究では,科学テキストを前提としたマスキング型言語モデルから,確率スコアに基づく新たな指標を提案する。
- 参考スコア(独自算出の注目度): 35.650619024498425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of learning to simplify medical texts. This is
important because most reliable, up-to-date information in biomedicine is dense
with jargon and thus practically inaccessible to the lay audience. Furthermore,
manual simplification does not scale to the rapidly growing body of biomedical
literature, motivating the need for automated approaches. Unfortunately, there
are no large-scale resources available for this task. In this work we introduce
a new corpus of parallel texts in English comprising technical and lay
summaries of all published evidence pertaining to different clinical topics. We
then propose a new metric based on likelihood scores from a masked language
model pretrained on scientific texts. We show that this automated measure
better differentiates between technical and lay summaries than existing
heuristics. We introduce and evaluate baseline encoder-decoder Transformer
models for simplification and propose a novel augmentation to these in which we
explicitly penalize the decoder for producing "jargon" terms; we find that this
yields improvements over baselines in terms of readability.
- Abstract(参考訳): 医学テキストを簡素化する学習の問題を考える。
バイオメディシンの最も信頼性の高い最新の情報はジャーゴンで密集しており、従って実際の観客にはアクセスできないため、これは重要である。
さらに、手作業による単純化は急速に成長している生物医学文献にはスケールせず、自動化アプローチの必要性を動機付けている。
残念ながら、このタスクには大規模なリソースはありません。
本研究は, 異なる臨床トピックに関連するすべての証拠を要約した, 専門的および在来的な要約を含む, 英語の並列テキストの新しいコーパスを紹介する。
そこで我々は,科学文献に基づいて事前学習したマスク付き言語モデルから,確率スコアに基づく新しい指標を提案する。
この自動測定は,既存のヒューリスティックよりも技術と在来の要約の区別がよいことを示す。
我々は,ベースラインエンコーダ・デコーダトランスフォーマモデルを単純化するために導入し,評価し,これらを新たに拡張し,ジャルゴン項生成のためのデコーダを明示的にペナライズする手法を提案する。
関連論文リスト
- SciGisPy: a Novel Metric for Biomedical Text Simplification via Gist Inference Score [7.4751114996742]
我々は、Fizzy-Trace Theory(FTT)のGist Inference Score(GIS)にインスパイアされた新しい評価指標であるSciGisPyを紹介する。
SciGisPyは、単純化されたテキストが理解に必要な抽象的推論(gist)の形成をいかに促進するかを測定する。
The Cochrane Biomedical text simplification dataset on our experimental evaluation showed that SciGisPy developed outperforms the original GIS formulation。
論文 参考訳(メタデータ) (2024-10-12T19:53:56Z) - Medical Text Simplification: Optimizing for Readability with
Unlikelihood Training and Reranked Beam Search Decoding [18.06012822620814]
テキストの単純化は、医学などの専門分野におけるコミュニケーションギャップを埋めるために、AIのますます有用な応用として現れてきた。
顕著な進歩にもかかわらず、医学的単純化の手法は、品質と多様性の低い生成されたテキストをもたらすことがある。
そこで本研究では,より単純な用語を生成するための新たな異義性損失と,シンプルさを最適化する再帰的ビーム探索復号法を提案する。
論文 参考訳(メタデータ) (2023-10-17T12:14:03Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - NapSS: Paragraph-level Medical Text Simplification via Narrative
Prompting and Sentence-matching Summarization [46.772517928718216]
そこで我々はNapSSと呼ばれる2段階戦略を提案する。
NapSSは、オリジナルの物語の流れが保存されていることを保証しながら、関連コンテンツを特定し、単純化する。
本モデルは,英語医療コーパスのSeq2seqベースラインよりも有意に優れている。
論文 参考訳(メタデータ) (2023-02-11T02:20:25Z) - Readability Controllable Biomedical Document Summarization [17.166794984161964]
バイオメディカル文書の可読性制御のための新しいタスクを提案する。
ユーザの可読性要求を認識し、ニーズに合った要約を生成することを目的としている。
論文 参考訳(メタデータ) (2022-10-10T14:03:20Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Automated Lay Language Summarization of Biomedical Scientific Reviews [16.01452242066412]
健康リテラシーは適切な健康判断と治療結果の確保において重要な要素として浮上している。
医療用語とこのドメインの専門言語の複雑な構造は、健康情報を解釈するのが特に困難にします。
本稿では,生物医学的レビューの要約を自動生成する新しい課題について紹介する。
論文 参考訳(メタデータ) (2020-12-23T10:01:18Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。