論文の概要: Glo-VLMs: Leveraging Vision-Language Models for Fine-Grained Diseased Glomerulus Classification
- arxiv url: http://arxiv.org/abs/2508.15960v1
- Date: Thu, 21 Aug 2025 21:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.188913
- Title: Glo-VLMs: Leveraging Vision-Language Models for Fine-Grained Diseased Glomerulus Classification
- Title(参考訳): Glo-VLMs:細粒疾患糸球体分類のための視覚言語モデルの活用
- Authors: Zhenhao Guo, Rachit Saluja, Tianyuan Yao, Quan Liu, Yuankai Huo, Benjamin Liechty, David J. Pisapia, Kenji Ikemura, Mert R. Sabuncu, Yihe Yang, Ruining Deng,
- Abstract要約: 本稿では,視覚言語モデルの細粒度分類への適応を探求する体系的なフレームワークであるGlo-VLMを紹介する。
本手法は,臨床用テキストプロンプトとともに治療された病理画像を活用し,共同画像・テキスト表現学習を容易にする。
本研究は, 標準化されたマルチクラスメトリクスを用いて, 臨床応用のための大規模事前学習モデルの実用的要件と可能性を明らかにすることを目的として, 全モデルの評価を行う。
- 参考スコア(独自算出の注目度): 7.87247433522498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have shown considerable potential in digital pathology, yet their effectiveness remains limited for fine-grained, disease-specific classification tasks such as distinguishing between glomerular subtypes. The subtle morphological variations among these subtypes, combined with the difficulty of aligning visual patterns with precise clinical terminology, make automated diagnosis in renal pathology particularly challenging. In this work, we explore how large pretrained VLMs can be effectively adapted to perform fine-grained glomerular classification, even in scenarios where only a small number of labeled examples are available. In this work, we introduce Glo-VLMs, a systematic framework designed to explore the adaptation of VLMs to fine-grained glomerular classification in data-constrained settings. Our approach leverages curated pathology images alongside clinical text prompts to facilitate joint image-text representation learning for nuanced renal pathology subtypes. By assessing various VLMs architectures and adaptation strategies under a few-shot learning paradigm, we explore how both the choice of method and the amount of labeled data impact model performance in clinically relevant scenarios. To ensure a fair comparison, we evaluate all models using standardized multi-class metrics, aiming to clarify the practical requirements and potential of large pretrained models for specialized clinical research applications. As a result, fine-tuning the VLMs achieved 0.7416 accuracy, 0.9045 macro-AUC, and 0.5277 F1-score with only 8 shots per class, demonstrating that even with highly limited supervision, foundation models can be effectively adapted for fine-grained medical image classification.
- Abstract(参考訳): 視覚言語モデル(VLM)は、デジタル病理学においてかなりの可能性を示しているが、その効果は、糸球体サブタイプを区別するなど、細粒度で疾患固有の分類タスクに限られている。
これらのサブタイプ間の微妙な形態的変化は、視覚パターンと正確な臨床用語の整合が困難であることと相まって、特に腎疾患の診断が困難である。
本研究は,少数のラベル付きサンプルしか利用できないシナリオにおいても,VLMがより粒度の細かい分類に効果的に適応できるかを考察する。
本稿では,データ制約条件下での細粒度球状分類へのVLMの適応を探求する体系的なフレームワークであるGlo-VLMを紹介する。
本手法は, 臨床用テキストプロンプトとともに治療された病理画像を利用して, ニュアンスド腎疾患サブタイプに対する共同画像テキスト表現学習を容易にする。
様々なVLMアーキテクチャと適応戦略を数ショットの学習パラダイムで評価することにより、臨床関連シナリオにおける手法の選択とラベル付きデータの量の両方がモデル性能に与える影響を考察する。
本研究は, 標準化されたマルチクラスメトリクスを用いて, 臨床応用のための大規模事前学習モデルの実用的要件と可能性を明らかにすることを目的として, 全モデルの評価を行う。
その結果、VLMの微調整は0.7416の精度、0.9045のマクロAUC、0.5277のF1スコアをクラス8ショットで達成した。
関連論文リスト
- Comparison of ConvNeXt and Vision-Language Models for Breast Density Assessment in Screening Mammography [39.58317527488534]
本研究では,BI-RADSシステムを用いた自動分類のためのマルチモーダル法とCNN法の比較を行った。
ゼロショット分類は、微調整されたConvNeXtモデルがBioMedCLIP線形プローブよりも優れた性能を示した。
これらの結果から, マルチモーダル学習の約束にもかかわらず, エンドツーエンドの微調整を施したCNNモデルの方が, 医用画像の特化に有効であることが示唆された。
論文 参考訳(メタデータ) (2025-06-16T20:14:37Z) - In-Context Learning for Label-Efficient Cancer Image Classification in Oncology [1.741659712094955]
In-context Learning (ICL) は、ドメイン固有の診断タスクに対するモデル再トレーニングの実用的な代替手段である。
視覚言語モデル(VLM)-Paligemma, CLIP, ALIGN, GPT-4o の評価を行った。
ICLは、サイズが小さいにもかかわらず競争力の向上を示し、計算に制約のある臨床環境への展開の可能性を示した。
論文 参考訳(メタデータ) (2025-05-08T20:49:01Z) - Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images [7.048241543461529]
ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。
我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。
類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
論文 参考訳(メタデータ) (2025-03-13T12:18:37Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - MedFMC: A Real-world Dataset and Benchmark For Foundation Model
Adaptation in Medical Image Classification [41.16626194300303]
ファンデーションモデルは、多くの場合、大規模なデータで事前訓練されているが、様々なビジョンや言語アプリケーションのジャンプ開始において、最も成功している。
最近の進歩により、下流タスクにおける基礎モデルの適応は、少数のトレーニングサンプルだけで効率的に行えるようになった。
しかし, 医用画像解析におけるそのような学習パラダイムの適用は, 一般に公開されているデータやベンチマークが不足しているため, 依然として少ない。
論文 参考訳(メタデータ) (2023-06-16T01:46:07Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - Data Efficient and Weakly Supervised Computational Pathology on Whole
Slide Images [4.001273534300757]
計算病理学は、客観的診断、治療反応予測、臨床関連性の新たな形態学的特徴の同定を可能にする可能性がある。
ディープラーニングベースの計算病理学アプローチでは、完全に教師された設定でギガピクセル全体のスライド画像(WSI)のマニュアルアノテーションを必要とするか、弱い教師付き設定でスライドレベルのラベルを持つ何千ものWSIを必要とする。
ここでは、クラスタリングに制約のある複数のインスタンス学習について紹介する。
論文 参考訳(メタデータ) (2020-04-20T23:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。