論文の概要: Adding more data does not always help: A study in medical conversation
summarization with PEGASUS
- arxiv url: http://arxiv.org/abs/2111.07564v1
- Date: Mon, 15 Nov 2021 07:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 13:33:41.442718
- Title: Adding more data does not always help: A study in medical conversation
summarization with PEGASUS
- Title(参考訳): より多くのデータを追加することは必ずしも役に立たない: PEGASUSとの医療会話要約に関する研究
- Authors: Varun Nair, Namit Katariya, Xavier Amatriain, Ilya Valmianski, Anitha
Kannan
- Abstract要約: PEGを用いた転帰学習医療会話要約におけるデータセットサイズの影響について検討した。
また,分類環境での成功を受けて,低データ体制における様々な反復的なラベル付け戦略の評価を行った。
我々の研究は、医療会話要約への分類における低データ体制技術の導入の成功と課題に光を当てている。
- 参考スコア(独自算出の注目度): 5.276054618115727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical conversation summarization is integral in capturing information
gathered during interactions between patients and physicians. Summarized
conversations are used to facilitate patient hand-offs between physicians, and
as part of providing care in the future. Summaries, however, can be
time-consuming to produce and require domain expertise. Modern pre-trained NLP
models such as PEGASUS have emerged as capable alternatives to human
summarization, reaching state-of-the-art performance on many summarization
benchmarks. However, many downstream tasks still require at least moderately
sized datasets to achieve satisfactory performance. In this work we (1) explore
the effect of dataset size on transfer learning medical conversation
summarization using PEGASUS and (2) evaluate various iterative labeling
strategies in the low-data regime, following their success in the
classification setting. We find that model performance saturates with increase
in dataset size and that the various active-learning strategies evaluated all
show equivalent performance consistent with simple dataset size increase. We
also find that naive iterative pseudo-labeling is on-par or slightly worse than
no pseudo-labeling. Our work sheds light on the successes and challenges of
translating low-data regime techniques in classification to medical
conversation summarization and helps guides future work in this space. Relevant
code available at
\url{https://github.com/curai/curai-research/tree/main/medical-summarization-ML4H-2021}.
- Abstract(参考訳): 医療会話の要約は、患者と医師の相互作用中に収集された情報の収集に不可欠である。
要約された会話は、医師間の患者のハンドオフを促進し、将来のケアの一部として使用される。
しかし要約は、ドメインの専門知識を生み出すのに時間がかかります。
PEGASUSのような現代の訓練済みのNLPモデルは、人間の要約に代わる有効な代替品として登場し、多くの要約ベンチマークで最先端のパフォーマンスに達した。
しかし、多くのダウンストリームタスクは、十分なパフォーマンスを達成するために少なくとも中程度のサイズのデータセットを必要とする。
本研究は,(1)PEGASUSを用いた転帰学習医療会話要約におけるデータセットサイズの影響について検討し,(2)低データ体制における様々な反復的ラベリング戦略の評価を行った。
モデル性能はデータセットサイズの増加とともに飽和し,様々なアクティブラーニング戦略が評価した結果,単純なデータセットサイズの増加と同等のパフォーマンスを示すことがわかった。
また, 反復的擬似ラベル法は疑似ラベル法よりもわずかに劣っている。
私たちの研究は、低データレジーム技術を分類から医学的会話要約に翻訳する成功と課題を浮き彫りにし、この分野における今後の作業のガイドに役立てます。
関連コードは \url{https://github.com/curai/curai-research/tree/main/medical-summarization-ml4h-2021}。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Pseudo Label-Guided Data Fusion and Output Consistency for
Semi-Supervised Medical Image Segmentation [9.93871075239635]
より少ないアノテーションで医用画像のセグメンテーションを行うための平均教師ネットワーク上に構築されたPLGDFフレームワークを提案する。
本稿では,ラベル付きデータとラベルなしデータを組み合わせてデータセットを効果的に拡張する,新しい擬似ラベル利用方式を提案する。
本フレームワークは,最先端の6つの半教師あり学習手法と比較して,優れた性能が得られる。
論文 参考訳(メタデータ) (2023-11-17T06:36:43Z) - SHAPE: A Sample-adaptive Hierarchical Prediction Network for Medication
Recommendation [22.899946140205962]
本稿では,SHAPE(Sample-adaptive Hierarchical medicAtion Prediction nEtwork)を提案する。
具体的には、訪問レベルの表現を得るために、医療イベントにおける関係を符号化する、コンパクトなビジット・セット・エンコーダを設計する。
モデルに可変訪問長をモデル化する能力を与えるため,各標本の難易度を訪問長によって自動的に割り当てるソフトカリキュラム学習手法を提案する。
論文 参考訳(メタデータ) (2023-09-09T08:28:04Z) - MedNgage: A Dataset for Understanding Engagement in Patient-Nurse
Conversations [4.847266237348932]
症状を効果的に管理する患者は、医療従事者との会話や介入において、より高いレベルのエンゲージメントを示すことが多い。
AIシステムは、患者と実践者との自然な会話におけるエンゲージメントを理解して、患者のケアにもっと貢献することが不可欠である。
本稿では,がん症状管理に関する患者と看護者の会話をまとめた新しいデータセット(MedNgage)を提案する。
論文 参考訳(メタデータ) (2023-05-31T16:06:07Z) - Medical Question Summarization with Entity-driven Contrastive Learning [12.008269098530386]
本稿では,エンティティ駆動型コントラスト学習(ECL)を用いた新しい医療質問要約フレームワークを提案する。
ECLは、しばしば質問される質問(FAQ)に医療機関を採用し、硬い負のサンプルを生成する効果的なメカニズムを考案している。
iCliniqデータセットの33%の重複率など、いくつかのMQAデータセットが深刻なデータ漏洩問題に悩まされていることが分かりました。
論文 参考訳(メタデータ) (2023-04-15T00:19:03Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - MedDistant19: A Challenging Benchmark for Distantly Supervised
Biomedical Relation Extraction [19.046156065686308]
遠隔監視は、注釈付きデータの不足に対処するために一般的に使用される。
バイオDSREモデルは、いくつかのベンチマークで非常に正確な結果が得られるように見える。
しかし,タスクの難易度を考慮し,このような印象的な結果の有効性について検討した。
論文 参考訳(メタデータ) (2022-04-10T22:07:25Z) - Towards Robust Partially Supervised Multi-Structure Medical Image
Segmentation on Small-Scale Data [123.03252888189546]
データ不足下における部分教師付き学習(PSL)における方法論的ギャップを埋めるために,不確実性下でのビシナルラベル(VLUU)を提案する。
マルチタスク学習とヴィジナルリスク最小化によって動機づけられたVLUUは、ビジナルラベルを生成することによって、部分的に教師付き問題を完全な教師付き問題に変換する。
本研究は,ラベル効率の高い深層学習における新たな研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2020-11-28T16:31:00Z) - ATSO: Asynchronous Teacher-Student Optimization for Semi-Supervised
Medical Image Segmentation [99.90263375737362]
教師-学生最適化の非同期版であるATSOを提案する。
ATSOはラベルのないデータを2つのサブセットに分割し、モデルの微調整に1つのサブセットを交互に使用し、他のサブセットのラベルを更新する。
医用画像のセグメンテーションデータセットを2つ評価し,様々な半教師付き環境において優れた性能を示す。
論文 参考訳(メタデータ) (2020-06-24T04:05:12Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。