論文の概要: From Classification to Cross-Modal Understanding: Leveraging Vision-Language Models for Fine-Grained Renal Pathology
- arxiv url: http://arxiv.org/abs/2511.11984v1
- Date: Sat, 15 Nov 2025 01:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.481077
- Title: From Classification to Cross-Modal Understanding: Leveraging Vision-Language Models for Fine-Grained Renal Pathology
- Title(参考訳): 分類から横断的理解へ:細粒腎疾患に対する視覚言語モデルの活用
- Authors: Zhenhao Guo, Rachit Saluja, Tianyuan Yao, Quan Liu, Junchao Zhu, Haibo Wang, Daniel Reisenbüchler, Yuankai Huo, Benjamin Liechty, David J. Pisapia, Kenji Ikemura, Steven Salvatoree, Surya Seshane, Mert R. Sabuncu, Yihe Yang, Ruining Deng,
- Abstract要約: 臨床的に現実的な数ショット問題として,細粒度糸球体サブタイプをモデル化した。
この条件下では、病理特化モデルと汎用視覚言語モデルの両方を評価する。
- 参考スコア(独自算出の注目度): 9.268389327736735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained glomerular subtyping is central to kidney biopsy interpretation, but clinically valuable labels are scarce and difficult to obtain. Existing computational pathology approaches instead tend to evaluate coarse diseased classification under full supervision with image-only models, so it remains unclear how vision-language models (VLMs) should be adapted for clinically meaningful subtyping under data constraints. In this work, we model fine-grained glomerular subtyping as a clinically realistic few-shot problem and systematically evaluate both pathology-specialized and general-purpose vision-language models under this setting. We assess not only classification performance (accuracy, AUC, F1) but also the geometry of the learned representations, examining feature alignment between image and text embeddings and the separability of glomerular subtypes. By jointly analyzing shot count, model architecture and domain knowledge, and adaptation strategy, this study provides guidance for future model selection and training under real clinical data constraints. Our results indicate that pathology-specialized vision-language backbones, when paired with the vanilla fine-tuning, are the most effective starting point. Even with only 4-8 labeled examples per glomeruli subtype, these models begin to capture distinctions and show substantial gains in discrimination and calibration, though additional supervision continues to yield incremental improvements. We also find that the discrimination between positive and negative examples is as important as image-text alignment. Overall, our results show that supervision level and adaptation strategy jointly shape both diagnostic performance and multimodal structure, providing guidance for model selection, adaptation strategies, and annotation investment.
- Abstract(参考訳): 細粒な糸球体サブタイプは腎臓生検の解釈の中心であるが、臨床的に価値のあるラベルは乏しく入手が難しい。
既存の計算病理学アプローチでは、画像のみのモデルを用いて、粗い疾患の分類を評価する傾向があるため、視覚言語モデル(VLM)が、データ制約の下で臨床的に意味のあるサブタイプにどのように適応すべきかは、まだ不明である。
本研究は, 微小粒状球状体サブタイプを臨床的に現実的な少数ショット問題としてモデル化し, 本設定下での病理特化モデルと汎用視覚言語モデルの両方を体系的に評価する。
我々は,分類性能(精度,AUC,F1)だけでなく,学習した表現の幾何学も評価し,画像とテキストの埋め込みの特徴的アライメントと,糸球体サブタイプの分離性について検討した。
本研究は、ショットカウント、モデルアーキテクチャ、ドメイン知識、適応戦略を共同で分析することにより、実際の臨床データ制約下での将来のモデル選択とトレーニングのためのガイダンスを提供する。
以上の結果から,バニラファインチューニングを併用した場合,病理組織特異的な視覚言語バックボーンが最も有効な出発点であることが示唆された。
糸球体サブタイプあたりのラベル付き例はわずか4-8であるにもかかわらず、これらのモデルは区別を捉え始め、識別とキャリブレーションを著しく向上させるが、追加の監視は徐々に改善され続けている。
また、肯定的な例と否定的な例の区別は、画像テキストのアライメントと同じくらい重要であることも判明した。
以上の結果から, モデル選択, 適応戦略, アノテーション投資のガイダンスとして, 診断性能とマルチモーダル構造を両立させながら, 監督レベルと適応戦略を両立させることができた。
関連論文リスト
- Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - Glo-VLMs: Leveraging Vision-Language Models for Fine-Grained Diseased Glomerulus Classification [7.87247433522498]
本稿では,視覚言語モデルの細粒度分類への適応を探求する体系的なフレームワークであるGlo-VLMを紹介する。
本手法は,臨床用テキストプロンプトとともに治療された病理画像を活用し,共同画像・テキスト表現学習を容易にする。
本研究は, 標準化されたマルチクラスメトリクスを用いて, 臨床応用のための大規模事前学習モデルの実用的要件と可能性を明らかにすることを目的として, 全モデルの評価を行う。
論文 参考訳(メタデータ) (2025-08-21T21:05:44Z) - DiagR1: A Vision-Language Model Trained via Reinforcement Learning for Digestive Pathology Diagnosis [7.5173141954286775]
内視鏡的所見と診断結果の両方を含む大規模な消化管病理データセットを構築した。
この設計は、画像特有の特徴をよりよく捉え、生成時のセマンティック一貫性を維持するためにモデルを導く。
臨床関連度は18.7%, 構造的完全性は32.4%改善し, 診断誤差は41.2%減少した。
論文 参考訳(メタデータ) (2025-07-24T14:12:20Z) - The Skin Game: Revolutionizing Standards for AI Dermatology Model Comparison [0.6144680854063939]
皮膚画像分類における深層学習アプローチは有望な結果を示しているが、適切な評価を妨げる重要な方法論的課題に直面している。
本稿では、皮膚疾患分類研究における現在の方法論の体系的分析を行い、データ準備、強化戦略、パフォーマンス報告におけるかなりの不整合を明らかにした。
本稿では、厳密なデータ準備、系統的誤り解析、異なる画像タイプのための特別なプロトコルを強調し、モデル開発、評価、臨床展開のための包括的な方法論的勧告を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:15:36Z) - Transformer-Based Self-Supervised Learning for Histopathological Classification of Ischemic Stroke Clot Origin [0.0]
虚血性脳卒中における血栓塞栓源の同定は治療と二次予防に不可欠である。
本研究は,虚血性脳梗塞の発生源を分類するためのエンボリのデジタル病理学における自己教師型深層学習アプローチについて述べる。
論文 参考訳(メタデータ) (2024-05-01T23:40:12Z) - Fairness Evolution in Continual Learning for Medical Imaging [47.52603262576663]
本研究では、ドメイン固有の公平度指標を用いてタスク間でバイアスがどのように進化し、異なるCL戦略がこの進化にどのように影響するかを検討する。
以上の結果から,擬似ラベルと擬似ラベルの学習は最適分類性能を実現するが,擬似ラベルの偏りは小さいことが示唆された。
論文 参考訳(メタデータ) (2024-04-10T09:48:52Z) - Strategies to Improve Real-World Applicability of Laparoscopic Anatomy Segmentation Models [6.8726432208129555]
本研究では,8つのセグメンテーション指標に対するクラス特性,トレーニング,テストデータ構成,およびモデルパラメータの影響を系統的に分析する。
本研究は, 外科的データ科学におけるデータバイアスを考慮に入れた2つの調整を支援する。
論文 参考訳(メタデータ) (2024-03-25T21:08:26Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。