論文の概要: Exploring Optimal Granularity for Extractive Summarization of
Unstructured Health Records: Analysis of the Largest Multi-Institutional
Archive of Health Records in Japan
- arxiv url: http://arxiv.org/abs/2209.10041v1
- Date: Tue, 20 Sep 2022 23:26:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:09:22.038517
- Title: Exploring Optimal Granularity for Extractive Summarization of
Unstructured Health Records: Analysis of the Largest Multi-Institutional
Archive of Health Records in Japan
- Title(参考訳): 非構造健康記録の抽出要約のための最適粒度探索 : 日本最大の多施設健康記録アーカイブの分析
- Authors: Kenichiro Ando, Takashi OkumuraID, Mamoru Komachi, Hiromasa Horiguchi,
Yuji Matsumoto
- Abstract要約: 「処分要約」は要約の有望な応用の1つである。
要約が構造されていないソースからどのように生成されるべきかは、まだ不明である。
本研究は,要約における最適粒度を同定することを目的とした。
- 参考スコア(独自算出の注目度): 25.195233641408233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated summarization of clinical texts can reduce the burden of medical
professionals. "Discharge summaries" are one promising application of the
summarization, because they can be generated from daily inpatient records. Our
preliminary experiment suggests that 20-31% of the descriptions in discharge
summaries overlap with the content of the inpatient records. However, it
remains unclear how the summaries should be generated from the unstructured
source. To decompose the physician's summarization process, this study aimed to
identify the optimal granularity in summarization. We first defined three types
of summarization units with different granularities to compare the performance
of the discharge summary generation: whole sentences, clinical segments, and
clauses. We defined clinical segments in this study, aiming to express the
smallest medically meaningful concepts. To obtain the clinical segments, it was
necessary to automatically split the texts in the first stage of the pipeline.
Accordingly, we compared rule-based methods and a machine learning method, and
the latter outperformed the formers with an F1 score of 0.846 in the splitting
task. Next, we experimentally measured the accuracy of extractive summarization
using the three types of units, based on the ROUGE-1 metric, on a
multi-institutional national archive of health records in Japan. The measured
accuracies of extractive summarization using whole sentences, clinical
segments, and clauses were 31.91, 36.15, and 25.18, respectively. We found that
the clinical segments yielded higher accuracy than sentences and clauses. This
result indicates that summarization of inpatient records demands finer
granularity than sentence-oriented processing. Although we used only Japanese
health records, it can be interpreted as follows: physicians extract "concepts
of medical significance" from patient records and recombine them ...
- Abstract(参考訳): 臨床テキストの自動要約は、医療専門家の負担を軽減することができる。
毎日の入院記録から生成できるため、この要約の有望な応用の一つに「ディスチャージサマリー」がある。
予備実験では, 退院サマリーの20~31%が入院記録の内容と重なることが示唆された。
しかし、どのようなサマリーを非構造化ソースから生成すべきかは定かではない。
本研究は,医師の要約過程を分解するために,要約の最適粒度を特定することを目的とした。
まず, 文全体, 臨床セグメント, 節のアウトプット・サマリー生成の性能を比較するために, 粒度の異なる3種類の要約単位を定義した。
本研究では,最小の医学的意味概念の表現を目的とした臨床セグメントを定義した。
臨床セグメントを得るには,パイプラインの第1段階で自動的にテキストを分割する必要がある。
そこで,本研究ではルールベース手法と機械学習法を比較し,後者がf1得点0.846で前者を上回る結果を得た。
次に, ROUGE-1測定値に基づく抽出要約の精度を, 日本における多施設の保健記録アーカイブ上で実験的に測定した。
全文,臨床セグメント,節を用いた抽出要約の精度は,それぞれ31.91,36.15,25.18であった。
その結果,臨床セグメントは文や節よりも精度が高かった。
この結果から,患者記録の要約は文指向処理よりも細粒度を要求されることが示唆された。
日本の健康記録のみを用いたが、医師は患者の記録から「医学的意義の概念」を抽出し、それらを再結合する。
関連論文リスト
- Towards Efficient Patient Recruitment for Clinical Trials: Application of a Prompt-Based Learning Model [0.7373617024876725]
臨床試験は医薬品の介入を促進するのに不可欠であるが、適格な参加者を選ぶ際にボトルネックに直面している。
構造化されていない医療用テキストの複雑な性質は、参加者を効率的に識別する上での課題である。
本研究では,コホート選択課題に対するプロンプトベース大規模言語モデルの性能評価を目的とした。
論文 参考訳(メタデータ) (2024-04-24T20:42:28Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence [46.71469172542448]
本稿では,医療用テキストのプレーン言語要約のためのファクトPICOを提案する。
3つのランダム化制御試験(RCT)から生成される抽象語の345のプレーン言語要約で構成されている。
本研究は,これらのサマリーにおけるRCTの重要要素の事実と,それらに関する報告された知見について評価する。
論文 参考訳(メタデータ) (2024-02-18T04:45:01Z) - Making the Most Out of the Limited Context Length: Predictive Power
Varies with Clinical Note Type and Note Section [70.37720062263176]
本研究では,高い予測力で区間を解析する枠組みを提案する。
MIMIC-IIIを用いて,(1)看護用音符と退院用音符とでは予測電力分布が異なること,(2)文脈長が大きい場合の音符の組み合わせにより性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-07-13T20:04:05Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - A Meta-Evaluation of Faithfulness Metrics for Long-Form Hospital-Course
Summarization [2.8575516056239576]
病院入院の長期的臨床要約は、臨床医と患者の両方に役立つ可能性から、現実的な重要性を持っている。
本研究は,患者の短期病院講座のモデル作成要約に対して,人体アノテーションの微粒化に対する忠実度指標をベンチマークした。
論文 参考訳(メタデータ) (2023-03-07T14:57:06Z) - NapSS: Paragraph-level Medical Text Simplification via Narrative
Prompting and Sentence-matching Summarization [46.772517928718216]
そこで我々はNapSSと呼ばれる2段階戦略を提案する。
NapSSは、オリジナルの物語の流れが保存されていることを保証しながら、関連コンテンツを特定し、単純化する。
本モデルは,英語医療コーパスのSeq2seqベースラインよりも有意に優れている。
論文 参考訳(メタデータ) (2023-02-11T02:20:25Z) - A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text [1.4841452489515765]
現在の最先端(SOTA)NLPモデルは、ディープラーニング技術と高度に統合されている。
本研究では,医学的実体認識,関係抽出,属性抽出の工学的枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-08T03:19:16Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - What's in a Summary? Laying the Groundwork for Advances in
Hospital-Course Summarization [2.432409923443071]
患者の入院中に書かれた文書を考えると、患者の入院の物語を記した段落を作成する。
109,000の病院化(2Mソースノート)とその対応する要約プロキシの英語、テキストからテキストへのデータセットを構築します。
本稿では,この複雑な文書要約タスクのモデル化における複数の意味を明らかにする。
論文 参考訳(メタデータ) (2021-04-12T19:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。