論文の概要: Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions
- arxiv url: http://arxiv.org/abs/2503.03278v1
- Date: Wed, 05 Mar 2025 09:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:34.630520
- Title: Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions
- Title(参考訳): 知識記述を伴う視覚言語モデルにおける異常グラウンド化の促進
- Authors: Jun Li, Che Liu, Wenjia Bai, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel,
- Abstract要約: 本稿では,医学的異常検出と局所化におけるVLM性能向上のための新しいアプローチを提案する。
医療概念を基本的な属性と一般的な視覚パターンに分解することに注力する。
提案手法を0.23B Florence-2ベースモデルで評価し,より大きな7B LLaVAベースの医療用VLMと同等の性能を示すことを示す。
- 参考スコア(独自算出の注目度): 11.503540826701807
- License:
- Abstract: Visual Language Models (VLMs) have demonstrated impressive capabilities in visual grounding tasks. However, their effectiveness in the medical domain, particularly for abnormality detection and localization within medical images, remains underexplored. A major challenge is the complex and abstract nature of medical terminology, which makes it difficult to directly associate pathological anomaly terms with their corresponding visual features. In this work, we introduce a novel approach to enhance VLM performance in medical abnormality detection and localization by leveraging decomposed medical knowledge. Instead of directly prompting models to recognize specific abnormalities, we focus on breaking down medical concepts into fundamental attributes and common visual patterns. This strategy promotes a stronger alignment between textual descriptions and visual features, improving both the recognition and localization of abnormalities in medical images.We evaluate our method on the 0.23B Florence-2 base model and demonstrate that it achieves comparable performance in abnormality grounding to significantly larger 7B LLaVA-based medical VLMs, despite being trained on only 1.5% of the data used for such models. Experimental results also demonstrate the effectiveness of our approach in both known and previously unseen abnormalities, suggesting its strong generalization capabilities.
- Abstract(参考訳): ビジュアル言語モデル(VLM)は、視覚的なグラウンドタスクにおいて印象的な機能を示している。
しかし, 医用領域におけるその効果, 特に異常検出や医用画像の局所化については, 未発見のままである。
主な課題は、医学用語の複雑で抽象的な性質であり、病的異常項とそれに対応する視覚的特徴を直接関連付けることは困難である。
本稿では,分解医療の知識を活用して,医用異常検出および局所化におけるVLM性能を向上させる新しいアプローチを提案する。
特定の異常を認識するようモデルに直接促すのではなく、医療概念を基本的な属性と一般的な視覚パターンに分解することに重点を置いている。
この戦略は, 医用画像の異常認識と局所化の両面において, テキスト記述と視覚的特徴の整合性の向上を促進させ, この手法を0.23B Florence-2ベースモデルで評価し, それらのモデルで使用されるデータの1.5%しか訓練されていないにもかかわらず, 7B LLaVAベースの医療用VLMに対して, 異常点において同等の性能を達成できることを実証した。
また,本手法が既知異常および未確認異常の両方において有効であることを示し,その強力な一般化能力が示唆された。
関連論文リスト
- Training Medical Large Vision-Language Models with Abnormal-Aware Feedback [57.98393950821579]
本報告では,Unveiling Medicalnomaitiesを用いたUMed-LVLMを提案する。
本稿では,GPT-4Vを用いた診断手法を提案する。
実験の結果, UMed-LVLMは既存のMed-LVLMを上回り, 医学的異常を同定し, 理解していることがわかった。
論文 参考訳(メタデータ) (2025-01-02T17:37:20Z) - Deep Generative Models Unveil Patterns in Medical Images Through Vision-Language Conditioning [3.4299097748670255]
深部生成モデルでは、データセットのサイズと品質を向上することにより、医療画像解析が大幅に進歩している。
画像合成プロセスの指針として,臨床データとセグメンテーションマスクを組み合わせることによって,ハイブリッド条件による生成構造を用いる。
我々のアプローチは、画像と臨床情報の視覚的相関が低いため、従来の医療報告誘導合成よりも困難であり、課題である。
論文 参考訳(メタデータ) (2024-10-17T17:48:36Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - MediCLIP: Adapting CLIP for Few-shot Medical Image Anomaly Detection [6.812281925604158]
本稿ではまず,数ショット設定における画像異常検出の課題に焦点をあてる。
そこで本研究では,CLIPモデルを用いた医用画像異常検出手法であるMediCLIPを提案する。
論文 参考訳(メタデータ) (2024-05-18T15:24:58Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Optimizing Skin Lesion Classification via Multimodal Data and Auxiliary
Task Integration [54.76511683427566]
本研究は, スマートフォンで撮影した画像と本質的な臨床および人口統計情報を統合することで, 皮膚病変を分類する新しいマルチモーダル手法を提案する。
この手法の特徴は、超高解像度画像予測に焦点を当てた補助的なタスクの統合である。
PAD-UFES20データセットを用いて,様々なディープラーニングアーキテクチャを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-16T05:16:20Z) - Improving Medical Report Generation with Adapter Tuning and Knowledge
Enhancement in Vision-Language Foundation Models [26.146579369491718]
この研究は、一般的な大規模基盤モデルをカスタマイズするための最先端のビジョン言語事前学習および微調整アプローチBLIP-2に基づく。
ImageCLEFmedical 2023のデータセットのバリデーションでは、いくつかの最先端手法に対して、最も優れた平均結果が得られる。
論文 参考訳(メタデータ) (2023-12-07T01:01:45Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。