論文の概要: LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition?
- arxiv url: http://arxiv.org/abs/2503.07487v1
- Date: Mon, 10 Mar 2025 16:05:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:30.755235
- Title: LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition?
- Title(参考訳): LLaVA-RadZ: マルチモーダル大言語モデルはゼロショットラジオグラフィ認識に効果的に対応できるか?
- Authors: Bangyan Li, Wenxuan Huang, Yunhang Shen, Yeqiang Wang, Shaohui Lin, Jingzhong Lin, Ling You, Yinqi Zhang, Ke Li, Xing Sun, Yuling Sun,
- Abstract要約: マルチモーダル・大型モデル (MLLM) は視覚的理解と推論において例外的な能力を示した。
ゼロショット診断のためのフレームワークであるLLaVA-RadZを提案する。
大規模モデルの本質的な医学的知識を活用するためにドメイン知識集計モジュール(DKAM)を導入する。
- 参考スコア(独自算出の注目度): 30.843971208278006
- License:
- Abstract: Recently, multimodal large models (MLLMs) have demonstrated exceptional capabilities in visual understanding and reasoning across various vision-language tasks. However, MLLMs usually perform poorly in zero-shot medical disease recognition, as they do not fully exploit the captured features and available medical knowledge. To address this challenge, we propose LLaVA-RadZ, a simple yet effective framework for zero-shot medical disease recognition. Specifically, we design an end-to-end training strategy, termed Decoding-Side Feature Alignment Training (DFAT) to take advantage of the characteristics of the MLLM decoder architecture and incorporate modality-specific tokens tailored for different modalities, which effectively utilizes image and text representations and facilitates robust cross-modal alignment. Additionally, we introduce a Domain Knowledge Anchoring Module (DKAM) to exploit the intrinsic medical knowledge of large models, which mitigates the category semantic gap in image-text alignment. DKAM improves category-level alignment, allowing for accurate disease recognition. Extensive experiments on multiple benchmarks demonstrate that our LLaVA-RadZ significantly outperforms traditional MLLMs in zero-shot disease recognition and exhibits the state-of-the-art performance compared to the well-established and highly-optimized CLIP-based approaches.
- Abstract(参考訳): 近年,マルチモーダル大規模モデル (MLLM) は視覚的理解と様々な視覚言語タスクにおける推論において,例外的な能力を示した。
しかし、MLLMは通常、捕獲された特徴や利用可能な医療知識を十分に活用していないため、ゼロショットの医療疾患認識では不十分である。
この課題に対処するために,ゼロショット医学的疾患認識のための簡易かつ効果的なフレームワークであるLLaVA-RadZを提案する。
具体的には、MLLMデコーダアーキテクチャの特性を利用して、画像とテキストの表現を効果的に活用し、堅牢なクロスモーダルアライメントを容易にするため、エンド・ツー・エンドのトレーニング戦略であるDFAT(Decoding-Side Feature Alignment Training)を設計する。
さらに,画像テキストアライメントにおけるカテゴリ意味的ギャップを緩和する,大規模モデルの本質的な医学的知識を活用するためのドメイン知識アンチョリングモジュール(DKAM)を導入する。
DKAMはカテゴリーレベルのアライメントを改善し、正確な疾患認識を可能にする。
複数のベンチマークでの大規模な実験により、LLaVA-RadZはゼロショットの疾患認識において従来のMLLMよりも大幅に優れており、確立されたCLIPベースのアプローチと比較して最先端のパフォーマンスを示している。
関連論文リスト
- Scaling Large Vision-Language Models for Enhanced Multimodal Comprehension In Biomedical Image Analysis [0.1984949535188529]
ビジョン言語モデル(VLM)は、画像処理のための事前訓練されたビジョンバックボーンと、クロスモーダルプロジェクタを組み込むことによって、この問題に対処する。
低線量放射線治療におけるマルチモーダル理解を高めるため,LLaVAモデルから微調整されたインテリジェントアシスタントを開発した。
論文 参考訳(メタデータ) (2025-01-26T02:48:01Z) - Multimodal Clinical Reasoning through Knowledge-augmented Rationale Generation [12.242305026271675]
疾患診断におけるマルチモーダルな合理性生成に最適化されたSLMであるClinRaGenを紹介する。
ClinRaGenは、ドメイン知識と時系列EHRデータを統合するために、ユニークな知識強化された注意メカニズムを組み込んでいる。
以上の結果から,ClinRaGenはマルチモーダルEHRデータを解釈し,正確な臨床的根拠を生成するSLMの能力を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-12T07:34:56Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.41055673919895]
本研究では,視覚エンコーダと解像度の混合を用いたMLLMの設計空間について検討する。
視覚トークンを補完的な視覚エンコーダの集合から簡単に結合することは、より複雑な混合アーキテクチャや戦略と同じくらい効果的であることがわかった。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
多層構造プロンプトを用いたゼロショット/ファウショットインコンテキスト学習(ICL)のための新しい手法を開発した。
また、ユーザと大規模言語モデル(LLM)間の2つのコミュニケーションスタイルの有効性についても検討する。
本研究は,性別バイアスや偽陰性率などの診断精度とリスク要因を系統的に評価する。
論文 参考訳(メタデータ) (2024-05-10T06:52:44Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z) - Large Language Model Distilling Medication Recommendation Model [58.94186280631342]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Redefining Digital Health Interfaces with Large Language Models [69.02059202720073]
大規模言語モデル(LLM)は、複雑な情報を処理できる汎用モデルとして登場した。
LLMが臨床医とデジタル技術との新たなインターフェースを提供する方法を示す。
自動機械学習を用いた新しい予後ツールを開発した。
論文 参考訳(メタデータ) (2023-10-05T14:18:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。