論文の概要: Medically Aware GPT-3 as a Data Generator for Medical Dialogue
Summarization
- arxiv url: http://arxiv.org/abs/2110.07356v1
- Date: Thu, 9 Sep 2021 18:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 17:22:53.515674
- Title: Medically Aware GPT-3 as a Data Generator for Medical Dialogue
Summarization
- Title(参考訳): 医用対話要約用データジェネレータとしてのGPT-3
- Authors: Bharath Chintagunta and Namit Katariya and Xavier Amatriain and Anitha
Kannan
- Abstract要約: 本稿では,医療関連情報の収集に重点を置き,合成トレーニングデータを作成するアルゴリズムを提案する。
我々はGPT-3をアルゴリズムのバックボーンとして利用し、210人のラベル付きサンプルをスケールして6400人のラベル付きサンプルに匹敵する結果を得る。
- 参考スコア(独自算出の注目度): 5.878411350387833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In medical dialogue summarization, summaries must be coherent and must
capture all the medically relevant information in the dialogue. However,
learning effective models for summarization require large amounts of labeled
data which is especially hard to obtain. We present an algorithm to create
synthetic training data with an explicit focus on capturing medically relevant
information. We utilize GPT-3 as the backbone of our algorithm and scale 210
human labeled examples to yield results comparable to using 6400 human labeled
examples (~30x) leveraging low-shot learning and an ensemble method. In
detailed experiments, we show that this approach produces high quality training
data that can further be combined with human labeled data to get summaries that
are strongly preferable to those produced by models trained on human data alone
both in terms of medical accuracy and coherency.
- Abstract(参考訳): 医学的対話の要約では、要約はコヒーレントでなければならず、対話において医学的に関連する全ての情報を捉えなければならない。
しかしながら、要約のための効果的なモデルを学ぶには、特に取得が難しいラベル付きデータが必要となる。
本稿では,医療関連情報の収集に着目した合成学習データを作成するアルゴリズムを提案する。
我々はGPT-3をアルゴリズムのバックボーンとして利用し、210人のラベル付きサンプルをスケールし、ローショット学習とアンサンブル法を用いた6400人のラベル付きサンプル(~30倍)に匹敵する結果を得る。
詳細な実験において,本手法は人間のラベル付きデータと組み合わせて,医療的精度と一貫性の両面から,人的データだけで訓練したモデルに強く好適な要約を得ることのできる高品質なトレーニングデータを生成する。
関連論文リスト
- Can Medical Vision-Language Pre-training Succeed with Purely Synthetic Data? [8.775988650381397]
医療ビジョン言語による事前トレーニングモデルのトレーニングには、ペアで高品質な画像テキストデータを備えたデータセットが必要である。
近年の大規模言語モデルの進歩により,大規模合成画像テキストペアの生成が可能になった。
多様な高品質な合成データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-17T13:11:07Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP [9.432205523734707]
医療用語を患者に親しみやすい平易な言語に簡略化することを目的とした,レイ定義の自動生成という新たなタスクを導入する。
このデータセットは、5万以上のユニークな(医療用語、日常の定義)ペアと30万の言及からなる。
また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
論文 参考訳(メタデータ) (2023-12-24T23:01:00Z) - How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - Towards Unifying Anatomy Segmentation: Automated Generation of a
Full-body CT Dataset via Knowledge Aggregation and Anatomical Guidelines [113.08940153125616]
我々は533巻のボクセルレベルのラベルを142ドル(約1万2000円)で、全身CTスキャンのデータセットを作成し、解剖学的包括的カバレッジを提供する。
提案手法はラベル集約段階において手作業によるアノテーションに依存しない。
我々はCTデータに142ドルの解剖学的構造を予測できる統一解剖学的セグメンテーションモデルをリリースする。
論文 参考訳(メタデータ) (2023-07-25T09:48:13Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text [1.4841452489515765]
現在の最先端(SOTA)NLPモデルは、ディープラーニング技術と高度に統合されている。
本研究では,医学的実体認識,関係抽出,属性抽出の工学的枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-08T03:19:16Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。