論文の概要: LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model
- arxiv url: http://arxiv.org/abs/2410.02615v2
- Date: Sun, 6 Oct 2024 23:57:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 02:02:21.189850
- Title: LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model
- Title(参考訳): LoGra-Med: 医用ビジョンランゲージモデルのためのLong Context Multi-Graphアライメント
- Authors: Duy M. H. Nguyen, Nghiem T. Diep, Trung Q. Nguyen, Hoang-Bao Le, Tai Nguyen, Tien Nguyen, TrungTin Nguyen, Nhat Ho, Pengtao Xie, Roger Wattenhofer, James Zhou, Daniel Sonntag, Mathias Niepert,
- Abstract要約: 最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
- 参考スコア(独自算出の注目度): 55.80651780294357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art medical multi-modal large language models (med-MLLM), like LLaVA-Med or BioMedGPT, leverage instruction-following data in pre-training. However, those models primarily focus on scaling the model size and data volume to boost performance while mainly relying on the autoregressive learning objectives. Surprisingly, we reveal that such learning schemes might result in a weak alignment between vision and language modalities, making these models highly reliant on extensive pre-training datasets - a significant challenge in medical domains due to the expensive and time-consuming nature of curating high-quality instruction-following instances. We address this with LoGra-Med, a new multi-graph alignment algorithm that enforces triplet correlations across image modalities, conversation-based descriptions, and extended captions. This helps the model capture contextual meaning, handle linguistic variability, and build cross-modal associations between visuals and text. To scale our approach, we designed an efficient end-to-end learning scheme using black-box gradient estimation, enabling faster LLaMa 7B training. Our results show LoGra-Med matches LLAVA-Med performance on 600K image-text pairs for Medical VQA and significantly outperforms it when trained on 10% of the data. For example, on VQA-RAD, we exceed LLAVA-Med by 20.13% and nearly match the 100% pre-training score (72.52% vs. 72.64%). We also surpass SOTA methods like BiomedGPT on visual chatbots and RadFM on zero-shot image classification with VQA, highlighting the effectiveness of multi-graph alignment.
- Abstract(参考訳): LLaVA-MedやBioMedGPTのような最先端の医療マルチモーダルな大規模言語モデル(med-MLLM)は、事前トレーニングで命令追跡データを活用する。
しかしながら、これらのモデルは、主に自己回帰学習の目的に依存しながら、パフォーマンスを向上させるために、モデルサイズとデータボリュームのスケーリングに重点を置いています。
驚くべきことに、このような学習スキームが視覚と言語モダリティの整合性の弱さを招き、これらのモデルを広範囲な事前学習データセットに非常に依存させることは、医療領域において、高品質な命令追跡インスタンスをキュレートする費用と時間のかかる性質のため、大きな課題である。
画像のモダリティ、会話に基づく記述、拡張キャプションの3重相関を強制する新しいマルチグラフアライメントアルゴリズムであるLoGra-Medでこの問題に対処する。
これにより、モデルが文脈的意味を捉え、言語的多様性を扱い、視覚とテキスト間の相互関連を構築するのに役立つ。
提案手法をスケールするために,ブラックボックス勾配推定を用いた効率的なエンドツーエンド学習方式を設計し,LLaMa 7Bの学習を高速化した。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
例えば、VQA-RADでは、LLAVA-Medを20.13%上回り、100%事前トレーニングスコア(72.64%に対して72.52%)とほぼ一致している。
また,視覚チャットボットにおけるBiomedGPTや,VQAを用いたゼロショット画像分類におけるRadFMといったSOTA手法を超越し,マルチグラフアライメントの有効性を強調した。
関連論文リスト
- Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering [4.283761158899643]
医療領域に適応した大規模ビジョンと言語モデルを統合する医療ビジョン言語モデルを提案する。
提案モデルでは,SLAKE 1.0 の医療用 VQA データセット上での最先端性能を87.5% の精度で達成している。
論文 参考訳(メタデータ) (2024-04-24T20:31:15Z) - M-FLAG: Medical Vision-Language Pre-training with Frozen Language Models
and Latent Space Geometry Optimization [10.099650491353026]
本稿では,医療ビジョン言語モデルの事前学習と正規化のための新しい手法を提案する。
提案手法は,凍結言語モデルとLatent spAce Geometry Optimization (M-FLAG)を用いた医用視覚言語事前学習と呼ばれ,凍結言語モデルを用いて安定性と効率を訓練する。
5つの公開データセットにわたる大規模な実験により、M-FLAGは既存の医療ビジョン言語による事前トレーニングアプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T09:38:41Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。