論文の概要: Medical Vision Language Pretraining: A survey
- arxiv url: http://arxiv.org/abs/2312.06224v1
- Date: Mon, 11 Dec 2023 09:14:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:16:23.595660
- Title: Medical Vision Language Pretraining: A survey
- Title(参考訳): 医用ビジョン言語プレトレーニング : アンケート調査
- Authors: Prashant Shrestha, Sanskar Amgain, Bidur Khanal, Cristian A. Linte,
Binod Bhattarai
- Abstract要約: 医療ビジョン言語事前訓練は、医療領域におけるラベル付きデータの不足に対する有望な解決策である。
自己教師付き学習を通じてペア/アンペアの視覚とテキストデータセットを活用することで、モデルは膨大な知識を取得し、堅牢な特徴表現を学ぶように訓練することができる。
- 参考スコア(独自算出の注目度): 8.393439175704124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical Vision Language Pretraining (VLP) has recently emerged as a promising
solution to the scarcity of labeled data in the medical domain. By leveraging
paired/unpaired vision and text datasets through self-supervised learning,
models can be trained to acquire vast knowledge and learn robust feature
representations. Such pretrained models have the potential to enhance multiple
downstream medical tasks simultaneously, reducing the dependency on labeled
data. However, despite recent progress and its potential, there is no such
comprehensive survey paper that has explored the various aspects and
advancements in medical VLP. In this paper, we specifically review existing
works through the lens of different pretraining objectives, architectures,
downstream evaluation tasks, and datasets utilized for pretraining and
downstream tasks. Subsequently, we delve into current challenges in medical
VLP, discussing existing and potential solutions, and conclude by highlighting
future directions. To the best of our knowledge, this is the first survey
focused on medical VLP.
- Abstract(参考訳): 医療ビジョン言語事前訓練(VLP)は、医療領域におけるラベル付きデータの不足に対する有望な解決策として最近登場した。
自己教師付き学習を通じてペア/アンペアの視覚とテキストデータセットを活用することで、モデルは膨大な知識を取得し、堅牢な特徴表現を学ぶように訓練することができる。
このような事前訓練されたモデルは、複数の下流医療タスクを同時に強化し、ラベル付きデータへの依存を減らす可能性がある。
しかし、近年の進歩とその可能性にもかかわらず、医療用VLPの様々な側面と進歩を探求する総合的な調査論文は存在しない。
本稿では, 事前学習の目的, アーキテクチャ, 下流評価タスク, 事前学習と下流タスクに使用されるデータセットのレンズを用いて, 既存の研究を精査する。
その後、医療vlpにおける現在の課題を考察し、既存のソリューションと潜在的なソリューションについて議論し、今後の方向性を強調することで結論づける。
私たちの知る限りでは、医療用VLPに焦点を当てた最初の調査である。
関連論文リスト
- STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review [0.0]
医療ビジョン言語モデル(VLM)は、コンピュータビジョン(CV)と自然言語処理(NLP)を組み合わせて医療データを分析する。
本稿では,医療報告生成と視覚的質問応答のためのモデル開発における最近の進歩についてレビューする。
論文 参考訳(メタデータ) (2024-03-04T20:29:51Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - Multi-modal Pre-training for Medical Vision-language Understanding and
Generation: An Empirical Study with A New Benchmark [12.565598914787834]
RGC(RadioGraphy Captions)は、18,434枚の画像キャプチャー対を含む高品質でマルチモードなラジオグラフィーデータセットである。
RGCは、事前トレーニングデータセットや、医療報告の生成と医用画像テキスト検索のための新しいベンチマークとして使用することができる。
論文 参考訳(メタデータ) (2023-06-10T17:27:33Z) - Privacy-preserving machine learning for healthcare: open challenges and
future perspectives [72.43506759789861]
医療におけるプライバシー保護機械学習(PPML)に関する最近の文献を概観する。
プライバシ保護トレーニングと推論・アズ・ア・サービスに重点を置いています。
このレビューの目的は、医療におけるプライベートかつ効率的なMLモデルの開発をガイドすることである。
論文 参考訳(メタデータ) (2023-03-27T19:20:51Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - VLP: A Survey on Vision-Language Pre-training [24.093731037295502]
事前学習モデルの出現は、コンピュータビジョン (CV) や自然言語処理 (NLP) のような一様場を新しい時代にもたらした。
本稿では、画像テキストやビデオテキストの事前学習など、視覚言語事前学習の最近の進歩と新たなフロンティアについて調査する。
論文 参考訳(メタデータ) (2022-02-18T07:54:02Z) - Multilingual Medical Question Answering and Information Retrieval for
Rural Health Intelligence Access [1.0499611180329804]
いくつかの発展途上国の農村部では、高品質な医療、医療インフラ、専門的診断へのアクセスはほとんど利用できない。
このような医療アクセスの欠如、患者の以前の健康記録の欠如、および先住民語での情報の置換によるいくつかの死を、容易に防ぐことができる。
本稿では,機械学習とNLP(Natural Language Processing)技術における現象の進展を利用して,低リソース・多言語・予備的ファーストポイント・オブ・コンタクト・メディカルアシスタントを設計するアプローチについて述べる。
論文 参考訳(メタデータ) (2021-06-02T16:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。