Fugu-MT 論文翻訳(概要): Unified Medical Image-Text-Label Contrastive Learning With Continuous Prompt

論文の概要: Unified Medical Image-Text-Label Contrastive Learning With Continuous Prompt

arxiv url: http://arxiv.org/abs/2307.05920v1
Date: Wed, 12 Jul 2023 05:19:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-13 14:08:48.219779
Title: Unified Medical Image-Text-Label Contrastive Learning With Continuous Prompt
Title（参考訳）: 連続プロンプトによる医用画像・テキスト・ラベルコントラスト学習
Authors: Yuhao Wang
Abstract要約: 本稿では,連続的なプロンプトに基づく画像-テキスト-ラベルのコントラスト学習フレームワークを提案する。我々は,Unified Medical Contrastive Learningフレームワークが下流のタスクに優れた性能を示すことを示す十分な実験を通して実証する。
参考スコア（独自算出の注目度）: 3.218449686637963
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastive language-image Pre-training (CLIP) [13] can leverage large datasets of unlabeled Image-Text pairs, which have demonstrated impressive performance in various downstream tasks. Given that annotating medical data is time-consuming and laborious, Image-Text Pre-training has promising applications in exploiting large-scale medical image and radiology report datasets. However, medical Image-Text Pre-training faces several challenges, as follows: (1) Due to privacy concerns, the amount of available medical data is relatively small compared to natural data, leading to weaker generalization ability of the model. (2) Medical images are highly similar with only fine-grained differences in subtleties, resulting in a large number of false-negative sample pairs in comparison learning. (3) The hand-crafted Prompt usually differs from the natural medical image report, Subtle changes in wording can lead to significant differences in performance. In this paper, we propose a unified Image-Text-Label contrastive learning framework based on continuous prompts, with three main contributions. First, We unified the data of images, text, and labels, which greatly expanded the training data that the model could utilize. Second, we address the issue of data diversity and the impact of hand-crafted prompts on model performance by introducing continuous implicit prompts. Lastly, we propose a ImageText-Label contrastive Training to mitigate the problem of too many false-negative samples. We demonstrate through sufficient experiments that the Unified Medical Contrastive Learning (UMCL) framework exhibits excellent performance on several downstream tasks.
Abstract（参考訳）: 対照的なlanguage-image pre-training (clip) [13]はラベルのない画像テキストペアの大規模なデータセットを活用することができる。医用データの注釈付けは時間と手間がかかることを考えると、Image-Text Pre-Trainingは大規模医療画像および放射線医学レポートデータセットの活用に有望な応用である。しかし,医療用画像テキストの事前学習には,(1)プライバシ上の懸念から,利用可能な医療データ量は自然データと比較して比較的少ないため,モデルの一般化能力が低下する。 2) 医用画像は微妙さの微妙な相違のみに非常によく似ており, 比較学習では偽陰性サンプル対が多数存在する。 (3)手作りのプロンプトは,通常,天然の医用画像と異なり,語調の変化は,性能に有意な違いをもたらす可能性がある。本稿では,連続的なプロンプトに基づく画像-テキスト-ラベルのコントラスト学習フレームワークを提案する。まず、画像、テキスト、ラベルのデータを統合することで、モデルが利用できるトレーニングデータを大幅に拡張しました。次に,継続的な暗黙的プロンプトの導入によるデータ多様性の問題と,手作りのプロンプトがモデル性能に与える影響について論じる。最後に,偽陰性サンプルの多すぎる問題を軽減するため,画像テキストラベルコントラストトレーニングを提案する。我々は,Unified Medical Contrastive Learning (UMCL) フレームワークが複数の下流タスクにおいて優れた性能を示すことを示す。

関連論文リスト

LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。 DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文参考訳（メタデータ） (2024-04-30T17:56:24Z)
MLIP: Medical Language-Image Pre-training with Masked Local Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文参考訳（メタデータ） (2024-01-03T07:54:13Z)
Multimodal Foundation Models Exploit Text to Make Medical Image Predictions [3.4230952713864373]
我々は、画像やテキストを含む様々なデータモダリティを、マルチモーダル基礎モデルが統合し、優先順位付けするメカニズムを評価する。以上の結果から,マルチモーダルAIモデルは医学的診断的推論に有用であるが,テキストの活用によって精度が大きく向上することが示唆された。
論文参考訳（メタデータ） (2023-11-09T18:48:02Z)
Multiscale Progressive Text Prompt Network for Medical Image Segmentation [10.121625177837931]
本稿では,先行知識としてプログレッシブテキストプロンプトを用いてセグメンテーションプロセスを導くことを提案する。このモデルでは,データアノテーションのコストを低くして高品質な結果が得られる。
論文参考訳（メタデータ） (2023-06-30T23:37:16Z)
Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。 PTUnifier という2つのタイプを統一する手法を提案する。まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文参考訳（メタデータ） (2023-02-17T15:43:42Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文参考訳（メタデータ） (2022-11-23T07:00:11Z)
FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2021-11-09T17:15:38Z)
Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文参考訳（メタデータ） (2021-09-02T17:57:31Z)
Contrastive Learning of Medical Visual Representations from Paired Images and Text [38.91117443316013]
本研究では,自然発生した記述的ペアリングテキストを活用することで,医用視覚表現を学習するための教師なし戦略であるConVIRTを提案する。この2つのモダリティ間の双方向のコントラスト的目的を通じて、ペア化されたテキストデータを用いて医療画像エンコーダを事前訓練する手法は、ドメインに依存しないため、追加の専門家による入力は不要である。
論文参考訳（メタデータ） (2020-10-02T02:10:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。