論文の概要: FaMeSumm: Investigating and Improving Faithfulness of Medical
Summarization
- arxiv url: http://arxiv.org/abs/2311.02271v2
- Date: Wed, 8 Nov 2023 22:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 17:23:36.890416
- Title: FaMeSumm: Investigating and Improving Faithfulness of Medical
Summarization
- Title(参考訳): famesumm:医療要約の忠実性の調査と改善
- Authors: Nan Zhang, Yusen Zhang, Wu Guo, Prasenjit Mitra, Rui Zhang
- Abstract要約: 現在の要約モデルは、しばしば医療入力テキストに対して不誠実な出力を生成する。
FaMeSummは、医学的知識に基づいて訓練済みの言語モデルを微調整することで、忠実性を改善するためのフレームワークである。
- 参考スコア(独自算出の注目度): 20.7585913214759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Summaries of medical text shall be faithful by being consistent and factual
with source inputs, which is an important but understudied topic for safety and
efficiency in healthcare. In this paper, we investigate and improve
faithfulness in summarization on a broad range of medical summarization tasks.
Our investigation reveals that current summarization models often produce
unfaithful outputs for medical input text. We then introduce FaMeSumm, a
framework to improve faithfulness by fine-tuning pre-trained language models
based on medical knowledge. FaMeSumm performs contrastive learning on designed
sets of faithful and unfaithful summaries, and it incorporates medical terms
and their contexts to encourage faithful generation of medical terms. We
conduct comprehensive experiments on three datasets in two languages: health
question and radiology report summarization datasets in English, and a
patient-doctor dialogue dataset in Chinese. Results demonstrate that FaMeSumm
is flexible and effective by delivering consistent improvements over mainstream
language models such as BART, T5, mT5, and PEGASUS, yielding state-of-the-art
performances on metrics for faithfulness and general quality. Human evaluation
by doctors also shows that FaMeSumm generates more faithful outputs. Our code
is available at https://github.com/psunlpgroup/FaMeSumm .
- Abstract(参考訳): 医療用テキストの要約は,医療における安全及び効率の重要かつ未検討の話題である,情報源の入力と整合かつ事実的であることに忠実である。
本稿では,医療要約タスクの幅広い範囲において,要約における忠実度を調査・改善する。
本研究は,現在の要約モデルが医療用入力テキストに対して不誠実な出力を生じることを明らかにする。
次に,医学的知識に基づく事前学習型言語モデルの微調整による忠実度向上のためのフレームワークであるFaMeSummを紹介する。
famesummは、忠実で不誠実な要約の設計セットで対照的な学習を行い、医学用語とその文脈を取り入れ、医学用語の忠実な生成を促進する。
健康問題と放射線医学レポートの要約データセットを英語で、患者と医師の対話データセットを中国語で比較した。
その結果、FaMeSummは、BART、T5、mT5、PEGASUSといった主流言語モデルに対して一貫した改善を施すことで、フレキシブルで効果的であることが証明された。
医師による人間の評価は、FaMeSummがより忠実な出力を生成することを示している。
私たちのコードはhttps://github.com/psunlpgroup/FaMeSummで利用可能です。
関連論文リスト
- Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。
反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。
2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文 参考訳(メタデータ) (2024-07-19T17:24:25Z) - MedInsight: A Multi-Source Context Augmentation Framework for Generating
Patient-Centric Medical Responses using Large Language Models [3.0874677990361246]
大きな言語モデル(LLM)は、人間のような応答を生成する素晴らしい能力を示している。
我々は,LLM入力を関連背景情報で拡張する新しい検索フレームワークMedInsightを提案する。
MTSamplesデータセットの実験は、文脈的に適切な医療応答を生成するMedInsightの有効性を検証する。
論文 参考訳(メタデータ) (2024-03-13T15:20:30Z) - Semantic Textual Similarity Assessment in Chest X-ray Reports Using a
Domain-Specific Cosine-Based Metric [1.7802147489386628]
本稿では,生成医療報告と基礎的真実とのセマンティックな類似性を評価するための新しいアプローチを提案する。
本手法の有効性を検証し,医学的文脈におけるドメイン固有の意味的類似性を評価する。
論文 参考訳(メタデータ) (2024-02-19T07:48:25Z) - Med-HALT: Medical Domain Hallucination Test for Large Language Models [0.0]
本研究では,大規模言語モデル(LLM)における幻覚による課題に焦点を当てた。
我々は,幻覚の評価と低減を目的とした新しいベンチマークとデータセット,Med-HALT (Medical Domain Hallucination Test) を提案する。
論文 参考訳(メタデータ) (2023-07-28T06:43:04Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Cross-lingual Argument Mining in the Medical Domain [6.0158981171030685]
注釈付きデータがない医療用テキストでArgument Mining(AM)を実行する方法を示す。
我々の研究は、アノテーション(データ転送)を英語から特定のターゲット言語に自動翻訳・投影することは、注釈付きデータを生成する効果的な方法であることを示している。
また、スペイン語で自動生成されたデータを用いて、元の英語単言語設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - Retrieval-Augmented and Knowledge-Grounded Language Models for Faithful Clinical Medicine [68.7814360102644]
本稿では,Re$3$Writer法を提案する。
本手法が患者の退院指示生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:34:39Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Word-level Text Highlighting of Medical Texts forTelehealth Services [0.0]
本研究の目的は,異なるテキストハイライト技術が関連する医療状況をどのように捉えることができるかを示すことである。
3つの異なる単語レベルのテキストハイライト手法を実装し評価する。
実験の結果、ニューラルネットワークアプローチは医療関連用語の強調に成功していることがわかった。
論文 参考訳(メタデータ) (2021-05-21T15:13:54Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。