論文の概要: PairAug: What Can Augmented Image-Text Pairs Do for Radiology?
- arxiv url: http://arxiv.org/abs/2404.04960v1
- Date: Sun, 7 Apr 2024 13:40:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 18:22:15.427105
- Title: PairAug: What Can Augmented Image-Text Pairs Do for Radiology?
- Title(参考訳): PairAug: 画像・テキスト・ペアは放射線学に何ができるのか?
- Authors: Yutong Xie, Qi Chen, Sinuo Wang, Minh-Son To, Iris Lee, Ee Win Khoo, Kerolos Hendy, Daniel Koh, Yong Xia, Qi Wu,
- Abstract要約: 現在の視覚言語による事前学習手法は、主にペア化された画像テキストデータセットに依存している。
医用画像とテキストデータを同時に拡張するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.042820473327303
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current vision-language pre-training (VLP) methodologies predominantly depend on paired image-text datasets, a resource that is challenging to acquire in radiology due to privacy considerations and labelling complexities. Data augmentation provides a practical solution to overcome the issue of data scarcity, however, most augmentation methods exhibit a limited focus, prioritising either image or text augmentation exclusively. Acknowledging this limitation, our objective is to devise a framework capable of concurrently augmenting medical image and text data. We design a Pairwise Augmentation (PairAug) approach that contains an Inter-patient Augmentation (InterAug) branch and an Intra-patient Augmentation (IntraAug) branch. Specifically, the InterAug branch of our approach generates radiology images using synthesised yet plausible reports derived from a Large Language Model (LLM). The generated pairs can be considered a collection of new patient cases since they are artificially created and may not exist in the original dataset. In contrast, the IntraAug branch uses newly generated reports to manipulate images. This process allows us to create new paired data for each individual with diverse medical conditions. Our extensive experiments on various downstream tasks covering medical image classification zero-shot and fine-tuning analysis demonstrate that our PairAug, concurrently expanding both image and text data, substantially outperforms image-/text-only expansion baselines and advanced medical VLP baselines. Our code is released at \url{https://github.com/YtongXie/PairAug}.
- Abstract(参考訳): 現在の視覚言語事前学習(VLP)手法は、プライバシの考慮とラベル付けの複雑さにより、放射線学において取得が困難である、ペア画像テキストデータセットに大きく依存している。
データ拡張は、データ不足の問題を克服するための実用的な解決策を提供するが、ほとんどの拡張方法は、画像またはテキストの拡張のみを優先して、限定的な焦点を示す。
本研究の目的は,医用画像とテキストデータを同時に拡張できるフレームワークを開発することである。
Pairwise Augmentation (PairAug) アプローチを設計し, インターAug (InterAug) ブランチとIntraAug (IntraAug) ブランチを含む。
特に,本手法のInterAugブランチは,Large Language Model (LLM) から得られた合成可能かつ可塑性なレポートを用いて,放射線画像を生成する。
生成されたペアは、人工的に作成され、元のデータセットには存在しないため、新しい患者の集合と見なすことができる。
対照的に、IntraAugブランチは新たに生成されたレポートを使用して画像を操作する。
このプロセスにより、さまざまな医療状況の個人に対して、新たなペアデータを作成することができます。
医用画像分類のゼロショット化と微調整分析を対象とし, 画像データとテキストデータの両方を同時に拡張したPairAugが, 画像/テキストのみの拡張ベースラインと高度な医用VLPベースラインを大幅に上回っていることを示す。
私たちのコードは \url{https://github.com/YtongXie/PairAug} でリリースされています。
関連論文リスト
- MedRAT: Unpaired Medical Report Generation via Auxiliary Tasks [11.190146577567548]
本稿では、2つの異なるデータセットで利用可能な情報を活用する新しいモデルを提案する。
我々のモデルはMedRATと呼ばれ、従来の最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-07-04T13:31:47Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Utilizing Synthetic Data for Medical Vision-Language Pre-training: Bypassing the Need for Real Images [9.86468773903613]
Medical Vision-Language Pre-Trainingは、医用画像とペアの放射線学レポートから、共同で表現を学習する。
我々は、本物の医療報告から生成された、本物の医療画像と、その合成等価物とを置き換える。
我々の経験的評価は、合成データによって達成された性能が実画像と同等かそれ以上であることを示している。
論文 参考訳(メタデータ) (2023-10-10T21:29:41Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Self-Supervised Generative Style Transfer for One-Shot Medical Image
Segmentation [10.634870214944055]
医用画像のセグメンテーションにおいて、教師付きディープネットワークの成功は、豊富なラベル付きデータを必要とするコストが伴う。
本稿では,ボリューム画像分割ペアを合成可能なデータ拡張のための,新しいボリューム自己教師型学習法を提案する。
我々の研究の中心的信条は、ワンショット生成学習と自己指導型学習戦略の併用による恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-05T15:28:42Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。