論文の概要: MLLM-HWSI: A Multimodal Large Language Model for Hierarchical Whole Slide Image Understanding
- arxiv url: http://arxiv.org/abs/2603.23067v2
- Date: Wed, 25 Mar 2026 07:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 14:25:26.081409
- Title: MLLM-HWSI: A Multimodal Large Language Model for Hierarchical Whole Slide Image Understanding
- Title(参考訳): MLLM-HWSI:階層的全スライド画像理解のための多モード大言語モデル
- Authors: Basit Alawode, Arif Mahmood, Muaz Khalifa Al-Radi, Shahad Albastaki, Asim Khan, Muhammad Bilal, Moshira Ali Abdalla, Mohammed Bennamoun, Sajid Javed,
- Abstract要約: Whole Slide Images (WSIs) は階層構造を示し、診断情報は細胞形態、局所組織組織、世界的文脈から現れる。
既存の計算病理学(CPath) マルチモーダル言語モデル(MLLM)は一般にWSI全体を単一の埋め込みに圧縮する。
我々は、WSIレベルのMLLMであるtextbfMLLMHWSIを導入し、4つの異なるスケールで視覚特徴とマルチスケール言語を整列する。
- 参考スコア(独自算出の注目度): 39.29898673779214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whole Slide Images (WSIs) exhibit hierarchical structure, where diagnostic information emerges from cellular morphology, regional tissue organization, and global context. Existing Computational Pathology (CPath) Multimodal Large Language Models (MLLMs) typically compress an entire WSI into a single embedding, which hinders fine-grained grounding and ignores how pathologists synthesize evidence across different scales. We introduce \textbf{MLLM-HWSI}, a Hierarchical WSI-level MLLM that aligns visual features with pathology language at four distinct scales, cell as word, patch as phrase, region as sentence, and WSI as paragraph to support interpretable evidence-grounded reasoning. MLLM-HWSI decomposes each WSI into multi-scale embeddings with scale-specific projectors and jointly enforces (i) a hierarchical contrastive objective and (ii) a cross-scale consistency loss, preserving semantic coherence from cells to the WSI. We compute diagnostically relevant patches and aggregate segmented cell embeddings into a compact cellular token per-patch using a lightweight \textit{Cell-Cell Attention Fusion (CCAF)} transformer. The projected multi-scale tokens are fused with text tokens and fed to an instruction-tuned LLM for open-ended reasoning, VQA, report, and caption generation tasks. Trained in three stages, MLLM-HWSI achieves new SOTA results on 13 WSI-level benchmarks across six CPath tasks. By aligning language with multi-scale visual evidence, MLLM-HWSI provides accurate, interpretable outputs that mirror diagnostic workflows and advance holistic WSI understanding. Code is available at: \href{https://github.com/BasitAlawode/HWSI-MLLM}{GitHub}.
- Abstract(参考訳): Whole Slide Images (WSIs) は階層構造を示し、診断情報は細胞形態、局所組織組織、世界的文脈から現れる。
既存の計算病理学(CPath) マルチモーダル言語モデル(MLLM)は通常、WSI全体を単一の埋め込みに圧縮する。
階層的なWSIレベルのMLLMである‘textbf{MLLM-HWSI} を導入し、視覚的特徴を4つの異なる尺度(セル・アズ・ワード・パッチ・ア・フレーズ・フレーズ・リージョン・ア・文・WSI)で表現し、解釈可能なエビデンス・グラウンドの推論を支援する。
MLLM-HWSIは、各WSIを大規模プロジェクタによるマルチスケール埋め込みに分解し、共同で実施する
(i)階層的な対照的な目的と
(ii) 細胞からWSIへのセマンティックコヒーレンスを保持する, 大規模な整合性損失。
我々は,軽量な<textit{Cell-Cell Attention Fusion (CCAF) 変換器を用いて,診断関連パッチと集合セル埋め込みをコンパクトなセル単位のトークンに集約する。
投影されたマルチスケールトークンはテキストトークンで融合され、オープンエンド推論、VQA、レポート、キャプション生成タスクのために命令調整されたLLMに送られる。
3段階で訓練されたMLLM-HWSIは、6つのCPathタスクにわたる13のWSIレベルのベンチマークで新しいSOTA結果を達成する。
MLLM-HWSIは、言語をマルチスケールの視覚的証拠と整合させることにより、診断ワークフローを反映し、総合的なWSI理解を前進させる正確で解釈可能な出力を提供する。
コードは以下の通り: \href{https://github.com/BasitAlawode/HWSI-MLLM}{GitHub}。
関連論文リスト
- From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。
CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文 参考訳(メタデータ) (2026-01-15T18:59:10Z) - LoC-Path: Learning to Compress for Pathology Multimodal Large Language Models [19.89635786218384]
ワイルスライド画像(WSI)の理解は、そのギガピクセルスケールと診断関連領域の極端に親和性があるため、基本的に困難である。
既存のスライドレベルの多モード大言語モデル(MLLM)は、重いスライドレベルのエンコーダに依存している。
コストのかかるスライドレベルのエンコーダを冗長性低減モジュールに置き換える,効率的なMLLMフレームワークであるLoC-Pathを導入する。
論文 参考訳(メタデータ) (2025-12-05T03:16:46Z) - How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding [39.342366994703376]
MLLMが階層間の視覚的およびテキスト的入力をどのように処理するかを分析するための探索フレームワークを導入する。
ステージ単位の構造は、視覚的トークン化、命令チューニングデータ、事前学習コーパスの様々なバリエーションで安定しているが、各ステージシフトごとに特定の層が割り当てられることが示される。
論文 参考訳(メタデータ) (2025-08-27T21:22:01Z) - LISA: A Layer-wise Integration and Suppression Approach for Hallucination Mitigation in Multimodal Large Language Models [8.122679857175315]
MLLM(Multimodal Large Language Models)は、視覚言語タスクにおいて優れているが、オブジェクト幻覚の傾向が強い。
階層的変調と多層融合による生成一貫性を向上させるtextbfLISA を提案する。
実験によると、LISAは$mathrmCHAIR_I$で最大53.6%の幻覚を減少させ、POPE F1を4.5%改善する。
論文 参考訳(メタデータ) (2025-07-25T09:48:23Z) - Slide-Level Prompt Learning with Vision Language Models for Few-Shot Multiple Instance Learning in Histopathology [21.81603581614496]
病理組織学的全スライド画像(WSI)における少数ショット分類の課題に対処する。
本手法は,WSI分類に欠かせない局所組織型(パッチ)を特定するために,言語モデルから病理的事前知識を利用することで,自己を識別する。
本手法は, パッチ画像と組織型を効果的に整合させ, カテゴリごとのラベル付きWSIのみを用いて, 即時学習によりモデルを微調整する。
論文 参考訳(メタデータ) (2025-03-21T15:40:37Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。
私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。
我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文 参考訳(メタデータ) (2024-04-25T17:39:35Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。