論文の概要: Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images
- arxiv url: http://arxiv.org/abs/2602.19424v1
- Date: Mon, 23 Feb 2026 01:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.639197
- Title: Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images
- Title(参考訳): Hepato-LLaVA : 全スライディング画像の肝細胞病理解析のための疎トポパック留置専門家MLLM
- Authors: Yuxuan Yang, Zhonghao Yan, Yi Zhang, Bo Yun, Muxi Diao, Guowei Zhao, Kongming Liang, Wenbin Li, Zhanyu Ma,
- Abstract要約: 現在の計算手法は、固定解像度処理機構と非効率な特徴集約によって制約される。
Hepto-LLaVA(ヘプト・ララバ)は、微細組織病理解析のために設計された多モード大規模言語モデルである。
今回,HepatoPathoVQAについて検討した。
- 参考スコア(独自算出の注目度): 32.940175542155835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hepatocellular Carcinoma diagnosis relies heavily on the interpretation of gigapixel Whole Slide Images. However, current computational approaches are constrained by fixed-resolution processing mechanisms and inefficient feature aggregation, which inevitably lead to either severe information loss or high feature redundancy. To address these challenges, we propose Hepato-LLaVA, a specialized Multi-modal Large Language Model designed for fine-grained hepatocellular pathology analysis. We introduce a novel Sparse Topo-Pack Attention mechanism that explicitly models 2D tissue topology. This mechanism effectively aggregates local diagnostic evidence into semantic summary tokens while preserving global context. Furthermore, to overcome the lack of multi-scale data, we present HepatoPathoVQA, a clinically grounded dataset comprising 33K hierarchically structured question-answer pairs validated by expert pathologists. Our experiments demonstrate that Hepato-LLaVA achieves state-of-the-art performance on HCC diagnosis and captioning tasks, significantly outperforming existing methods. Our code and implementation details are available at https://pris-cv.github.io/Hepto-LLaVA/.
- Abstract(参考訳): 肝細胞癌の診断はGigapixel Whole Slide Imagesの解釈に大きく依存している。
しかし、現在の計算手法は固定解像度処理機構と非効率な特徴集約によって制約され、必然的に深刻な情報損失または高い特徴冗長性をもたらす。
これらの課題に対処するため,我々は,微細な肝細胞病理解析のために設計された多モード大規模言語モデルであるHepato-LLaVAを提案する。
本稿では,2次元組織トポロジーを明示的にモデル化した新しいスパーストポ-パックアテンション機構を提案する。
このメカニズムは、グローバルな文脈を維持しながら、局所的な診断証拠を意味的な要約トークンに効果的に集約する。
さらに, マルチスケールデータの欠如を克服するために, 専門病理医が検証した33K階層の質問応答対からなる臨床基盤データセットHepatoPathoVQAを提案する。
HCCの診断とキャプションタスクにおいて,肝-LLaVAは最先端のパフォーマンスを実現し,既存の手法よりも優れていた。
私たちのコードと実装の詳細はhttps://pris-cv.github.io/Hepto-LLaVA/.com/で公開されています。
関連論文リスト
- A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [49.11819337853632]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルであるCMSwinKANを提案する。
マルチスケールの特徴を融合させ、対照的な学習戦略を活用することで、CMSwinKANは臨床医の包括的なアプローチを模倣する。
その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文 参考訳(メタデータ) (2025-04-18T15:39:46Z) - PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。
本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。
本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-04-09T14:58:21Z) - Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images [7.048241543461529]
ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。
我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。
類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
論文 参考訳(メタデータ) (2025-03-13T12:18:37Z) - Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Pathology Analysis [37.11302829771659]
大規模視覚言語モデル(LVLM)は、入力解像度の制約によって制限され、病理画像解析の効率と精度を損なう。
課題誘導型機能拡張と課題誘導型詳細機能補完の2つの革新的戦略を提案する。
OmniPathは診断精度と効率において既存の方法よりも優れていた。
論文 参考訳(メタデータ) (2024-12-12T18:07:23Z) - Incremental Cross-view Mutual Distillation for Self-supervised Medical
CT Synthesis [88.39466012709205]
本稿では,スライス間の分解能を高めるために,新しい医療スライスを構築した。
臨床実践において, 根本・中間医療スライスは常に欠落していることを考慮し, 相互蒸留の段階的相互蒸留戦略を導入する。
提案手法は,最先端のアルゴリズムよりも明確なマージンで優れる。
論文 参考訳(メタデータ) (2021-12-20T03:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。