論文の概要: GMAT: Grounded Multi-Agent Clinical Description Generation for Text Encoder in Vision-Language MIL for Whole Slide Image Classification
- arxiv url: http://arxiv.org/abs/2508.01293v1
- Date: Sat, 02 Aug 2025 09:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.807975
- Title: GMAT: Grounded Multi-Agent Clinical Description Generation for Text Encoder in Vision-Language MIL for Whole Slide Image Classification
- Title(参考訳): GMAT:全スライド画像分類のための視覚言語MILにおけるテキストエンコーダのための基礎的臨床記述生成
- Authors: Ngoc Bui Lam Quang, Nam Le Nguyen Binh, Thanh-Huy Nguyen, Le Thien Phuc Nguyen, Quan Nguyen, Ulas Bagci,
- Abstract要約: 多重インスタンス学習(MIL)は、全スライド画像(WSI)分類における主要なアプローチである。
最近の研究は、医療知識を取り入れたビジョン言語モデル(VLM)をMILパイプラインに導入している。
本稿では2つの重要なコントリビューションを持つビジョン言語MILフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.922864692096282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiple Instance Learning (MIL) is the leading approach for whole slide image (WSI) classification, enabling efficient analysis of gigapixel pathology slides. Recent work has introduced vision-language models (VLMs) into MIL pipelines to incorporate medical knowledge through text-based class descriptions rather than simple class names. However, when these methods rely on large language models (LLMs) to generate clinical descriptions or use fixed-length prompts to represent complex pathology concepts, the limited token capacity of VLMs often constrains the expressiveness and richness of the encoded class information. Additionally, descriptions generated solely by LLMs may lack domain grounding and fine-grained medical specificity, leading to suboptimal alignment with visual features. To address these challenges, we propose a vision-language MIL framework with two key contributions: (1) A grounded multi-agent description generation system that leverages curated pathology textbooks and agent specialization (e.g., morphology, spatial context) to produce accurate and diverse clinical descriptions; (2) A text encoding strategy using a list of descriptions rather than a single prompt, capturing fine-grained and complementary clinical signals for better alignment with visual features. Integrated into a VLM-MIL pipeline, our approach shows improved performance over single-prompt class baselines and achieves results comparable to state-of-the-art models, as demonstrated on renal and lung cancer datasets.
- Abstract(参考訳): マルチ・インスタンス・ラーニング(MIL)は、全スライド画像(WSI)分類における主要なアプローチであり、ギガピクセル・パス・スライドの効率的な解析を可能にする。
最近の研究は、単純なクラス名ではなくテキストベースのクラス記述を通じて医療知識を統合するために、MILパイプラインに視覚言語モデル(VLM)を導入している。
しかしながら、これらの手法が臨床記述を生成するために大きな言語モデル(LLM)に依存したり、複雑な病理概念を表現するために固定長プロンプトを使用する場合、VLMの限られたトークン容量は、符号化されたクラス情報の表現力と豊かさを制約することが多い。
加えて、LLMによってのみ生成される記述は、領域の接地と細粒度の医学的特異性を欠き、視覚的特徴と最適以下のアライメントをもたらす可能性がある。
これらの課題に対処するために,(1) キュレートされた病理教科書とエージェント専門化(例えば,形態,空間的文脈)を活用して,正確かつ多様な臨床記述を生成する基盤的マルチエージェント記述生成システム,(2) 単一プロンプトではなく記述のリストを用いたテキスト符号化戦略,そして,視覚的特徴との整合性を高めるための細粒度および補足的な臨床信号の取得,という2つの重要な貢献点を持つ視覚言語MILフレームワークを提案する。
本手法はVLM-MILパイプラインに統合され,単発クラスベースラインよりも性能が向上し,腎癌および肺がんのデータセットに示すように,最先端モデルに匹敵する結果が得られた。
関連論文リスト
- Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。
大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文 参考訳(メタデータ) (2025-04-09T23:33:35Z) - Slide-Level Prompt Learning with Vision Language Models for Few-Shot Multiple Instance Learning in Histopathology [21.81603581614496]
病理組織学的全スライド画像(WSI)における少数ショット分類の課題に対処する。
本手法は,WSI分類に欠かせない局所組織型(パッチ)を特定するために,言語モデルから病理的事前知識を利用することで,自己を識別する。
本手法は, パッチ画像と組織型を効果的に整合させ, カテゴリごとのラベル付きWSIのみを用いて, 即時学習によりモデルを微調整する。
論文 参考訳(メタデータ) (2025-03-21T15:40:37Z) - Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images [7.048241543461529]
ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。
我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。
類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
論文 参考訳(メタデータ) (2025-03-13T12:18:37Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Pseudo-Prompt Generating in Pre-trained Vision-Language Models for Multi-Label Medical Image Classification [3.1029532920699934]
自然言語処理(NLP)におけるテキスト生成による新しいプロンプト生成手法を提案する。
提案手法はPsPG (Pseudo-Prompt Generating) と呼ばれ,マルチモーダル特徴の事前知識を活かした手法である。
RNNベースのデコーダを特徴とするPSPGは、クラス調整された埋め込みベクター、すなわち擬似プロンプトを自動生成する。
論文 参考訳(メタデータ) (2024-05-10T13:27:32Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。