論文の概要: EXGRA-MED: Extended Context Graph Alignment for Medical Vision- Language Models
- arxiv url: http://arxiv.org/abs/2410.02615v3
- Date: Tue, 17 Jun 2025 22:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.370223
- Title: EXGRA-MED: Extended Context Graph Alignment for Medical Vision- Language Models
- Title(参考訳): EXGRA-MED:医療ビジョン言語モデルのための拡張コンテキストグラフアライメント
- Authors: Duy M. H. Nguyen, Nghiem T. Diep, Trung Q. Nguyen, Hoang-Bao Le, Tai Nguyen, Tien Nguyen, TrungTin Nguyen, Nhat Ho, Pengtao Xie, Roger Wattenhofer, James Zou, Daniel Sonntag, Mathias Niepert,
- Abstract要約: 医療用AIにおける視覚言語統合のための新しいフレームワークであるEXGRA-MEDを紹介する。
画像、命令応答、拡張キャプションを共同で調整し、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
LLAVA-MEDのパフォーマンスを10%の事前トレーニングデータで比較し、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
- 参考スコア(独自算出の注目度): 69.40730368630003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art medical multi-modal LLMs (med-MLLMs), such as LLAVA-MED and BIOMEDGPT, primarily depend on scaling model size and data volume, with training driven largely by autoregressive objectives. However, we reveal that this approach can lead to weak vision-language alignment, making these models overly dependent on costly instruction-following data. To address this, we introduce EXGRA-MED, a novel multi-graph alignment framework that jointly aligns images, instruction responses, and extended captions in the latent space, advancing semantic grounding and cross-modal coherence. To scale to large LLMs (e.g., LLaMa-7B), we develop an efficient end-to-end training scheme using black-box gradient estimation, enabling fast and scalable optimization. Empirically, EXGRA-MED matches LLAVA-MED's performance using just 10% of pre-training data, achieving a 20.13% gain on VQA-RAD and approaching full-data performance. It also outperforms strong baselines like BIOMEDGPT and RADFM on visual chatbot and zero-shot classification tasks, demonstrating its promise for efficient, high-quality vision-language integration in medical AI.
- Abstract(参考訳): LLAVA-MED や BIOMEDGPT のような最先端の医療用マルチモーダル LLM (med-MLLMs) は、主にスケーリングモデルのサイズとデータボリュームに依存しており、主に自己回帰的な目的によって駆動される訓練である。
しかし,このアプローチが視覚言語アライメントの弱さを招き,これらのモデルが高コストな命令追従データに過度に依存していることが明らかとなった。
画像,命令応答,拡張キャプションを協調的にアライメントし,セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる,新しいマルチグラフアライメントフレームワークであるEXGRA-MEDを導入する。
大規模LLM(例えばLLaMa-7B)にスケールするために,ブラックボックス勾配推定を用いた効率的なエンドツーエンドトレーニング手法を開発し,高速でスケーラブルな最適化を実現する。
EXGRA-MEDは、トレーニング前のデータの10%しか使用せず、VQA-RADで20.13%のアップを達成し、フルデータパフォーマンスに近づいた。
また、BIOMEDGPTやRADFMといった強力なベースラインを、ビジュアルチャットボットやゼロショット分類タスクで上回り、医療AIにおける効率的で高品質なビジョン言語統合の可能性を実証している。
関連論文リスト
- HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models [15.877790469608662]
画像とテキストのペアデータの品質を向上させるために,LVLM駆動型データ精錬パイプラインを導入する。
否定的な記述と短いタグを組み込むことで、従来のコントラスト学習を拡張する訓練パラダイムを提案する。
提案手法は, ゼロショット分類, クロスモーダル検索, きめ細かな視覚理解タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T07:21:36Z) - Training Large Recommendation Models via Graph-Language Token Alignment [53.3142545812349]
本稿では,グラフ言語トークンアライメントによる大規模推薦モデルのトレーニングを行う新しいフレームワークを提案する。
インタラクショングラフからアイテムとユーザノードを事前訓練されたLLMトークンにアライメントすることで、GLTAはLLMの推論能力を効果的に活用する。
さらに、エンドツーエンドのアイテム予測のためのトークンアライメントを最適化するために、GLLM(Graph-Language Logits Matching)を導入する。
論文 参考訳(メタデータ) (2025-02-26T02:19:10Z) - MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification [19.29480118378639]
全スライド画像分類は、ギガピクセル画像サイズと限定アノテーションラベルによる課題を提示する。
本稿では,数ショットの病理分類に大規模な視覚言語モデルを適用するための素早い学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T09:42:13Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Coupling AI and Citizen Science in Creation of Enhanced Training Dataset for Medical Image Segmentation [3.7274206780843477]
我々は、AIとクラウドソーシングを組み合わせた堅牢で汎用的なフレームワークを導入し、医療画像データセットの品質と量を改善する。
当社のアプローチでは,多様なクラウドアノテータのグループによる医療画像のラベル付けを効率的に行うことができる,ユーザフレンドリーなオンラインプラットフォームを活用している。
我々は、生成AIモデルであるpix2pixGANを使用して、リアルな形態的特徴をキャプチャする合成画像を用いてトレーニングデータセットを拡張する。
論文 参考訳(メタデータ) (2024-09-04T21:22:54Z) - CollectiveSFT: Scaling Large Language Models for Chinese Medical Benchmark with Collective Instructions in Healthcare [12.218718086529462]
本研究は中国における総合医療ベンチマーク(CMB)に焦点を当てる。
私たちは、より大きなモデルに匹敵するスコアを得るために、より小さなベースモデルをトレーニングしました。
幅広い指導内容を統合することで,データ品質の不整合などの潜在的な問題に対処する。
論文 参考訳(メタデータ) (2024-07-29T05:00:48Z) - Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文 参考訳(メタデータ) (2024-06-16T16:15:20Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering [4.283761158899643]
医療領域に適応した大規模ビジョンと言語モデルを統合する医療ビジョン言語モデルを提案する。
提案モデルでは,SLAKE 1.0 の医療用 VQA データセット上での最先端性能を87.5% の精度で達成している。
論文 参考訳(メタデータ) (2024-04-24T20:31:15Z) - M-FLAG: Medical Vision-Language Pre-training with Frozen Language Models
and Latent Space Geometry Optimization [10.099650491353026]
本稿では,医療ビジョン言語モデルの事前学習と正規化のための新しい手法を提案する。
提案手法は,凍結言語モデルとLatent spAce Geometry Optimization (M-FLAG)を用いた医用視覚言語事前学習と呼ばれ,凍結言語モデルを用いて安定性と効率を訓練する。
5つの公開データセットにわたる大規模な実験により、M-FLAGは既存の医療ビジョン言語による事前トレーニングアプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T09:38:41Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。