Fugu-MT 論文翻訳(概要): Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

論文の概要: Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

arxiv url: http://arxiv.org/abs/2602.19424v1
Date: Mon, 23 Feb 2026 01:43:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.639197
Title: Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images
Title（参考訳）: Hepato-LLaVA : 全スライディング画像の肝細胞病理解析のための疎トポパック留置専門家MLLM
Authors: Yuxuan Yang, Zhonghao Yan, Yi Zhang, Bo Yun, Muxi Diao, Guowei Zhao, Kongming Liang, Wenbin Li, Zhanyu Ma,
Abstract要約: 現在の計算手法は、固定解像度処理機構と非効率な特徴集約によって制約される。 Hepto-LLaVA(ヘプト・ララバ)は、微細組織病理解析のために設計された多モード大規模言語モデルである。今回,HepatoPathoVQAについて検討した。
参考スコア（独自算出の注目度）: 32.940175542155835
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hepatocellular Carcinoma diagnosis relies heavily on the interpretation of gigapixel Whole Slide Images. However, current computational approaches are constrained by fixed-resolution processing mechanisms and inefficient feature aggregation, which inevitably lead to either severe information loss or high feature redundancy. To address these challenges, we propose Hepato-LLaVA, a specialized Multi-modal Large Language Model designed for fine-grained hepatocellular pathology analysis. We introduce a novel Sparse Topo-Pack Attention mechanism that explicitly models 2D tissue topology. This mechanism effectively aggregates local diagnostic evidence into semantic summary tokens while preserving global context. Furthermore, to overcome the lack of multi-scale data, we present HepatoPathoVQA, a clinically grounded dataset comprising 33K hierarchically structured question-answer pairs validated by expert pathologists. Our experiments demonstrate that Hepato-LLaVA achieves state-of-the-art performance on HCC diagnosis and captioning tasks, significantly outperforming existing methods. Our code and implementation details are available at https://pris-cv.github.io/Hepto-LLaVA/.
Abstract（参考訳）: 肝細胞癌の診断はGigapixel Whole Slide Imagesの解釈に大きく依存している。しかし、現在の計算手法は固定解像度処理機構と非効率な特徴集約によって制約され、必然的に深刻な情報損失または高い特徴冗長性をもたらす。これらの課題に対処するため,我々は,微細な肝細胞病理解析のために設計された多モード大規模言語モデルであるHepato-LLaVAを提案する。本稿では,2次元組織トポロジーを明示的にモデル化した新しいスパーストポ-パックアテンション機構を提案する。このメカニズムは、グローバルな文脈を維持しながら、局所的な診断証拠を意味的な要約トークンに効果的に集約する。さらに, マルチスケールデータの欠如を克服するために, 専門病理医が検証した33K階層の質問応答対からなる臨床基盤データセットHepatoPathoVQAを提案する。 HCCの診断とキャプションタスクにおいて,肝-LLaVAは最先端のパフォーマンスを実現し,既存の手法よりも優れていた。私たちのコードと実装の詳細はhttps://pris-cv.github.io/Hepto-LLaVA/.com/で公開されています。

関連論文リスト

A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。 CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文参考訳（メタデータ） (2025-12-15T10:22:43Z)
MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging [67.74482877175797]
MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。 TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
論文参考訳（メタデータ） (2025-11-13T06:30:41Z)
MMAP: A Multi-Magnification and Prototype-Aware Architecture for Predicting Spatial Gene Expression [1.083137038945176]
空間転写学(Spatial Transcriptomics:ST)は、空間情報を保存しながら遺伝子発現の測定を可能にする。近年、ヘマトキシリンとエオシン(H&E)による全スライディング画像(WSI)を用いて、ディープニューラルネットワークによる転写産物全体の遺伝子発現プロファイルを予測する研究が進められている。しかし, 組織像から空間遺伝子発現を予測することは, 視覚的特徴と分子信号との差が大きいため, 依然として難しい問題である。本研究では,MMAP (Multi-Magnification and Prototype-enhanced Architecture) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-13T12:41:09Z)
UGPL: Uncertainty-Guided Progressive Learning for Evidence-Based Classification in Computed Tomography [0.0]
現在のアプローチでは、画像が一様に処理され、局所的な異常を検出する能力が制限される。グローバル-ローカル分析を行う不確実性誘導型プログレッシブラーニングフレームワークであるUGPLを紹介する。 3つのCTデータセットに対する実験により、UGPLは最先端のメソッドを一貫して上回っていることが示された。
論文参考訳（メタデータ） (2025-07-18T17:30:56Z)
CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [49.11819337853632]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文参考訳（メタデータ） (2025-06-13T13:30:15Z)
Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルであるCMSwinKANを提案する。マルチスケールの特徴を融合させ、対照的な学習戦略を活用することで、CMSwinKANは臨床医の包括的なアプローチを模倣する。その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文参考訳（メタデータ） (2025-04-18T15:39:46Z)
PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2025-04-09T14:58:21Z)
Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images [7.048241543461529]
ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
論文参考訳（メタデータ） (2025-03-13T12:18:37Z)
Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Pathology Analysis [37.11302829771659]
大規模視覚言語モデル(LVLM)は、入力解像度の制約によって制限され、病理画像解析の効率と精度を損なう。課題誘導型機能拡張と課題誘導型詳細機能補完の2つの革新的戦略を提案する。 OmniPathは診断精度と効率において既存の方法よりも優れていた。
論文参考訳（メタデータ） (2024-12-12T18:07:23Z)
PCRLv2: A Unified Visual Information Preservation Framework for Self-supervised Pre-training in Medical Image Analysis [56.63327669853693]
本稿では,ピクセルレベルの情報を高レベルなセマンティクスに明示的にエンコードするための画素復元タスクを提案する。また,画像理解を支援する強力なツールであるスケール情報の保存についても検討する。提案されている統合SSLフレームワークは、さまざまなタスクで自己管理されたフレームワークを超越している。
論文参考訳（メタデータ） (2023-01-02T17:47:27Z)
Incremental Cross-view Mutual Distillation for Self-supervised Medical CT Synthesis [88.39466012709205]
本稿では,スライス間の分解能を高めるために,新しい医療スライスを構築した。臨床実践において, 根本・中間医療スライスは常に欠落していることを考慮し, 相互蒸留の段階的相互蒸留戦略を導入する。提案手法は,最先端のアルゴリズムよりも明確なマージンで優れる。
論文参考訳（メタデータ） (2021-12-20T03:38:37Z)
Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文参考訳（メタデータ） (2021-02-26T02:29:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。