論文の概要: Can Medical Vision-Language Pre-training Succeed with Purely Synthetic Data?
- arxiv url: http://arxiv.org/abs/2410.13523v2
- Date: Tue, 25 Feb 2025 06:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:19:39.235531
- Title: Can Medical Vision-Language Pre-training Succeed with Purely Synthetic Data?
- Title(参考訳): 純粋合成データによる医用ビジョンランゲージの事前学習は可能か?
- Authors: Che Liu, Zhongwei Wan, Haozhe Wang, Yinda Chen, Talha Qaiser, Chen Jin, Fariba Yousefi, Nikolay Burlutskiy, Rossella Arcucci,
- Abstract要約: 医療ビジョン言語による事前トレーニングモデルのトレーニングには、ペアで高品質な画像テキストデータを備えたデータセットが必要である。
大規模言語モデル(LLM)と拡散モデルの最近の進歩により,大規模合成画像テキストペアの生成が可能になった。
我々は、既製の生成モデルを用いて、合成放射線学レポートとチェストX線(CXR)画像のペアを作成するとともに、多種多様な高品質な合成データセットを構築するための自動パイプラインを提案する。
- 参考スコア(独自算出の注目度): 8.775988650381397
- License:
- Abstract: Medical Vision-Language Pre-training (MedVLP) has made significant progress in enabling zero-shot tasks for medical image understanding. However, training MedVLP models typically requires large-scale datasets with paired, high-quality image-text data, which are scarce in the medical domain. Recent advancements in Large Language Models (LLMs) and diffusion models have made it possible to generate large-scale synthetic image-text pairs. This raises the question: "Can MedVLP succeed using purely synthetic data?" To address this, we use off-the-shelf generative models to create synthetic radiology reports and paired Chest X-ray (CXR) images, and propose an automated pipeline to build a diverse, high-quality synthetic dataset, enabling a rigorous study that isolates model and training settings, focusing entirely from the data perspective. Our results show that MedVLP models trained exclusively on synthetic data outperform those trained on real data by 3.8% in averaged AUC on zero-shot classification. Moreover, using a combination of synthetic and real data leads to a further improvement of 9.07%. Additionally, MedVLP models trained on synthetic or mixed data consistently outperform those trained on real data in zero-shot grounding, as well as in fine-tuned classification and segmentation tasks. Our analysis suggests MedVLP trained on well-designed synthetic data can outperform models trained on real datasets, which may be limited by low-quality samples and long-tailed distributions.
- Abstract(参考訳): MedVLP(Med Vision-Language Pre-Training)は、医用画像理解のためのゼロショットタスクの実現に大きく進歩した。
しかし、MedVLPモデルのトレーニングは通常、医療領域では不十分なペアで高品質な画像テキストデータを持つ大規模なデータセットを必要とする。
大規模言語モデル(LLM)と拡散モデルの最近の進歩により,大規模合成画像テキストペアの生成が可能になった。
これは「Can MedVLPは純粋な合成データで成功するのか?
これを解決するために、既製の生成モデルを用いて合成放射線学レポートを作成し、チェストX線(CXR)画像と組み合わせて、多種多様な高品質な合成データセットを構築する自動化パイプラインを提案し、モデルとトレーニング設定を分離する厳密な研究を可能にし、データの観点から完全に焦点を合わせている。
以上の結果から,合成データのみを訓練したMedVLPモデルは,ゼロショット分類における平均AUCの3.8%で実データよりも優れていた。
さらに、合成データと実データを組み合わせることで、さらなる9.07%の改善がもたらされる。
さらに、合成データや混合データに基づいてトレーニングされたMedVLPモデルは、ゼロショットグラウンドでトレーニングされた実際のデータや、微調整された分類やセグメンテーションタスクにおいて、一貫して優れています。
我々の分析は、よく設計された合成データに基づいて訓練されたMedVLPが、低品質のサンプルと長い尾の分布によって制限された実際のデータセットで訓練されたモデルより優れていることを示唆している。
関連論文リスト
- Data-Constrained Synthesis of Training Data for De-Identification [0.0]
臨床領域に適応する大言語モデル(LLM)について検討した。
我々は,個人識別可能な情報にタグを付加した人工的な臨床テキストを生成する。
合成コーパスは合成NERモデルの訓練に使用される。
論文 参考訳(メタデータ) (2025-02-20T16:09:27Z) - License Plate Images Generation with Diffusion Models [4.151073288078749]
本稿では,映像生成にインスパイアされた拡散モデルを用いて,現実的なライセンスプレート(LP)を合成することを提案する。
我々は1万枚のLP画像からなる合成データセットを作成し、https://zenodo.org/doi/10.528/zenodo.13342102で公開しました。
論文 参考訳(メタデータ) (2025-01-06T20:22:18Z) - Embryo 2.0: Merging Synthetic and Real Data for Advanced AI Predictions [69.07284335967019]
2つのデータセットを使用して、2つの生成モデルをトレーニングします。
2-cell, 4-cell, 8-cell, morula, blastocyst など, 様々な細胞で合成胚画像を生成する。
これらは実画像と組み合わせて、胚細胞ステージ予測のための分類モデルを訓練した。
論文 参考訳(メタデータ) (2024-12-02T08:24:49Z) - Chatting Up Attachment: Using LLMs to Predict Adult Bonds [0.0]
GPT-4とClaude 3 Opusを使用して、さまざまなプロファイル、子供時代の記憶、アタッチメントスタイルを持つ大人をシミュレートするエージェントを作成します。
我々は,同一の面接プロトコルを施行し,精神保健専門家によって分析・ラベル付けされた9人のヒトの転写データセットを用いて,我々のモデルを評価した。
以上の結果から,合成データのみを用いたモデルトレーニングは,人間のデータを用いたモデルトレーニングに匹敵する性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2024-08-31T04:29:19Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Synthetically Enhanced: Unveiling Synthetic Data's Potential in Medical Imaging Research [4.475998415951477]
Generative AIは、合成画像を生成するための有望なアプローチを提供し、データセットの多様性を向上する。
本研究では, 医用画像研究の性能と一般化性に及ぼす合成データ補充の影響について検討した。
論文 参考訳(メタデータ) (2023-11-15T21:58:01Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks [61.51515750218049]
本稿では,低リソース自然言語理解(NLU)タスクのためのデータ拡張について述べる。
小型ソフト・プロンプトのみを訓練するPrompt-based Data Augmentation Model (PromDA)を提案する。
PromDAは2つの異なるビューを通して合成データを生成し、低品質データをNLUモデルを用いてフィルタリングする。
論文 参考訳(メタデータ) (2022-02-25T05:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。