論文の概要: Multi-modal Pre-training for Medical Vision-language Understanding and
Generation: An Empirical Study with A New Benchmark
- arxiv url: http://arxiv.org/abs/2306.06494v2
- Date: Thu, 24 Aug 2023 07:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 17:42:08.635113
- Title: Multi-modal Pre-training for Medical Vision-language Understanding and
Generation: An Empirical Study with A New Benchmark
- Title(参考訳): 医用視覚言語理解・生成のためのマルチモーダル事前学習 : 新しいベンチマークによる実証的研究
- Authors: Li Xu, Bo Liu, Ameer Hamza Khan, Lu Fan, Xiao-Ming Wu
- Abstract要約: RGC(RadioGraphy Captions)は、18,434枚の画像キャプチャー対を含む高品質でマルチモードなラジオグラフィーデータセットである。
RGCは、事前トレーニングデータセットや、医療報告の生成と医用画像テキスト検索のための新しいベンチマークとして使用することができる。
- 参考スコア(独自算出の注目度): 12.565598914787834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the availability of large-scale, comprehensive, and general-purpose
vision-language (VL) datasets such as MSCOCO, vision-language pre-training
(VLP) has become an active area of research and proven to be effective for
various VL tasks such as visual-question answering. However, studies on VLP in
the medical domain have so far been scanty. To provide a comprehensive
perspective on VLP for medical VL tasks, we conduct a thorough experimental
analysis to study key factors that may affect the performance of VLP with a
unified vision-language Transformer. To allow making sound and quick
pre-training decisions, we propose RadioGraphy Captions (RGC), a high-quality,
multi-modality radiographic dataset containing 18,434 image-caption pairs
collected from an open-access online database MedPix. RGC can be used as a
pre-training dataset or a new benchmark for medical report generation and
medical image-text retrieval. By utilizing RGC and other available datasets for
pre-training, we develop several key insights that can guide future medical VLP
research and new strong baselines for various medical VL tasks.
- Abstract(参考訳): MSCOCOのような大規模で包括的で汎用的な視覚言語(VL)データセットが利用可能になったことで、視覚言語事前学習(VLP)は研究の活発な領域となり、視覚探索応答などの様々なVLタスクに有効であることが証明された。
しかし,これまでの医療領域におけるvlpの研究は少ない。
医用VLタスクにおけるVLPの総合的な視点を提供するため、統合視覚言語変換器を用いて、VLPの性能に影響を与える重要な要因を研究するための徹底的な実験的な分析を行った。
提案するRadioGraphy Captions(RGC)は,オープンアクセス型オンラインデータベースMedPixから収集した18,434枚の画像キャプチャ対を含む,高品質で多モードなラジオグラフィデータセットである。
RGCは、事前トレーニングデータセットや、医療報告の生成と医用画像テキスト検索のための新しいベンチマークとして使用できる。
RGCやその他の利用可能なデータセットを事前トレーニングに活用することにより、将来の医療用VLP研究と、様々な医療用VLタスクのための新しい強力なベースラインをガイドできるいくつかの重要な洞察を開拓する。
関連論文リスト
- STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review [0.0]
医療ビジョン言語モデル(VLM)は、コンピュータビジョン(CV)と自然言語処理(NLP)を組み合わせて医療データを分析する。
本稿では,医療報告生成と視覚的質問応答のためのモデル開発における最近の進歩についてレビューする。
論文 参考訳(メタデータ) (2024-03-04T20:29:51Z) - MISS: A Generative Pretraining and Finetuning Approach for Med-VQA [16.978523518972533]
本稿では,医療用VQAタスクのためのMultI-task Self-Supervised Learning based framework (MISS)を提案する。
我々は,テキストエンコーダとマルチモーダルエンコーダを統一し,マルチタスク学習を通じて画像テキスト機能を調整する。
提案手法は,より少ないマルチモーダルデータセットで優れた結果を得るとともに,生成VQAモデルの利点を実証する。
論文 参考訳(メタデータ) (2024-01-10T13:56:40Z) - Freeze the backbones: A Parameter-Efficient Contrastive Approach to
Robust Medical Vision-Language Pre-training [15.790435273150083]
本稿では,事前に訓練した画像やテキストエンコーダの医療知識を凍結保存して保存するバックボーン非依存型適応フレームワークを提案する。
当社のフレームワークは,既存の事前トレーニングアプローチと比較して,トレーニング可能なパラメータを90%以上削減しながら,競争力のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-01-02T12:14:41Z) - Medical Vision Language Pretraining: A survey [8.393439175704124]
医療ビジョン言語事前訓練は、医療領域におけるラベル付きデータの不足に対する有望な解決策である。
自己教師付き学習を通じてペア/アンペアの視覚とテキストデータセットを活用することで、モデルは膨大な知識を取得し、堅牢な特徴表現を学ぶように訓練することができる。
論文 参考訳(メタデータ) (2023-12-11T09:14:13Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。