論文の概要: MedReadMe: A Systematic Study for Fine-grained Sentence Readability in Medical Domain
- arxiv url: http://arxiv.org/abs/2405.02144v2
- Date: Fri, 18 Oct 2024 19:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:44.333281
- Title: MedReadMe: A Systematic Study for Fine-grained Sentence Readability in Medical Domain
- Title(参考訳): MedReadMe:医療領域における微細文読解性に関する体系的研究
- Authors: Chao Jiang, Wei Xu,
- Abstract要約: 我々は、手動で注釈付けされた可読性評価と4,520文の詳細な複合スパンアノテーションからなる新しいデータセットMedReadMeを導入する。
これは650の言語的特徴と、自動的な複雑な単語とジャーゴン識別を網羅する定量的分析をサポートする。
既存の可読性式に1つの特徴を加えることで、人間の判断との相関を著しく改善できることがわかった。
- 参考スコア(独自算出の注目度): 9.91205505704257
- License:
- Abstract: Medical texts are notoriously challenging to read. Properly measuring their readability is the first step towards making them more accessible. In this paper, we present a systematic study on fine-grained readability measurements in the medical domain at both sentence-level and span-level. We introduce a new dataset MedReadMe, which consists of manually annotated readability ratings and fine-grained complex span annotation for 4,520 sentences, featuring two novel "Google-Easy" and "Google-Hard" categories. It supports our quantitative analysis, which covers 650 linguistic features and automatic complex word and jargon identification. Enabled by our high-quality annotation, we benchmark and improve several state-of-the-art sentence-level readability metrics for the medical domain specifically, which include unsupervised, supervised, and prompting-based methods using recently developed large language models (LLMs). Informed by our fine-grained complex span annotation, we find that adding a single feature, capturing the number of jargon spans, into existing readability formulas can significantly improve their correlation with human judgments. We will publicly release the dataset and code.
- Abstract(参考訳): 医学的な文章は読むのがとても難しい。
可読性を適切に測定することが、可読性を高めるための第一歩です。
本稿では,医療領域における細粒度可読性の測定について,文レベルとスパンレベルの両方で体系的に検討する。
我々は、手動で注釈付けされた可読性評価と4,520文の詳細な複合スパンアノテーションからなる新しいデータセットMedReadMeを紹介し、新しい「Google-Easy」と「Google-Hard」の2つのカテゴリを特徴とする。
これは650の言語的特徴と、自動的な複雑な単語とジャーゴン識別を網羅する定量的分析をサポートする。
近年開発された大規模言語モデル (LLM) を用いた教師なし, 教師なし, プロンプトベースの手法を含む, 医学領域における最先端の文章レベルの可読性指標をベンチマークし, 改良した。
粒度の細かい複雑なスパンアノテーションにインフォームされると、既存の可読性公式に単一の特徴を加えれば、人間の判断との相関が大幅に向上することがわかった。
データセットとコードを公開します。
関連論文リスト
- Estimating Lexical Complexity from Document-Level Distributions [0.0]
我々は、事前に注釈付けされたデータに依存しない語彙的複雑性を推定するための2段階のアプローチを開発する。
また,複雑性尺度と文献における複雑性に関連する特徴との関係についても検討する。
論文 参考訳(メタデータ) (2024-04-01T15:55:18Z) - Generating Summaries with Controllable Readability Levels [67.34087272813821]
テキストの複雑さ、主題、読者の背景知識など、可読性レベルに影響を与える要因がいくつかある。
現在のテキスト生成アプローチでは制御が洗練されておらず、結果として読者の習熟度にカスタマイズされないテキストが作られる。
可読性を制御するための3つのテキスト生成手法を開発した。命令ベースの可読性制御,要求される可読性と観測される可読性の間のギャップを最小限に抑える強化学習,および,ルックアヘッドを用いて今後の復号化ステップの可読性を評価する復号手法である。
論文 参考訳(メタデータ) (2023-10-16T17:46:26Z) - NapSS: Paragraph-level Medical Text Simplification via Narrative
Prompting and Sentence-matching Summarization [46.772517928718216]
そこで我々はNapSSと呼ばれる2段階戦略を提案する。
NapSSは、オリジナルの物語の流れが保存されていることを保証しながら、関連コンテンツを特定し、単純化する。
本モデルは,英語医療コーパスのSeq2seqベースラインよりも有意に優れている。
論文 参考訳(メタデータ) (2023-02-11T02:20:25Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Annotation Curricula to Implicitly Train Non-Expert Annotators [56.67768938052715]
自発的な研究は、しばしば、アノテータがタスク、そのアノテーションスキーム、およびデータドメインに精通することを要求する。
これは最初は圧倒的であり、精神的に課税され、結果として生じるアノテーションにエラーを誘導する。
暗黙的にアノテータを訓練する新しい手法であるアノテーションキュリキュラを提案する。
論文 参考訳(メタデータ) (2021-06-04T09:48:28Z) - Word-level Text Highlighting of Medical Texts forTelehealth Services [0.0]
本研究の目的は,異なるテキストハイライト技術が関連する医療状況をどのように捉えることができるかを示すことである。
3つの異なる単語レベルのテキストハイライト手法を実装し評価する。
実験の結果、ニューラルネットワークアプローチは医療関連用語の強調に成功していることがわかった。
論文 参考訳(メタデータ) (2021-05-21T15:13:54Z) - Paragraph-level Simplification of Medical Texts [35.650619024498425]
手動の簡略化は生物医学文献の急速に成長する体にスケールしません。
異なる臨床トピックに関連するすべての公開された証拠の技術的およびレイアウト要約からなる英語での平行テキストの新しいコーパスを紹介します。
本研究では,科学テキストを前提としたマスキング型言語モデルから,確率スコアに基づく新たな指標を提案する。
論文 参考訳(メタデータ) (2021-04-12T18:56:05Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - CompLex: A New Corpus for Lexical Complexity Prediction from Likert
Scale Data [13.224233182417636]
本稿では,連続語彙複雑性予測のための最初の英語データセットを提案する。
我々は5点のLikertスケールスキームを用いて、聖書、Europarl、バイオメディカルテキストの3つのソース/ドメインから、複雑な単語をテキストに注釈付けする。
論文 参考訳(メタデータ) (2020-03-16T03:54:22Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。