論文の概要: HookMIL: Revisiting Context Modeling in Multiple Instance Learning for Computational Pathology
- arxiv url: http://arxiv.org/abs/2512.22188v1
- Date: Sat, 20 Dec 2025 09:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.868719
- Title: HookMIL: Revisiting Context Modeling in Multiple Instance Learning for Computational Pathology
- Title(参考訳): HookMIL: 計算病理のための複数インスタンス学習におけるコンテキストモデリングの再検討
- Authors: Xitong Ling, Minxi Ouyang, Xiaoxiao Li, Jiawen Li, Ying Chen, Yuxuan Sun, Xinrui Chen, Tian Guan, Xiaoping Liu, Yonghong He,
- Abstract要約: MIL(Multiple Instance Learning)は、計算病理学における全スライディング画像(WSI)の弱教師付き解析を可能にする。
我々は,構造化コンテキストアグリゲーションのための,コンパクトで学習可能なフックトークンを活用する,コンテキスト認識および計算効率のよいMILフレームワークであるHookMILを提案する。
HookMILは最先端の性能を実現し、計算効率と解釈性を改善した。
- 参考スコア(独自算出の注目度): 34.31547104312019
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multiple Instance Learning (MIL) has enabled weakly supervised analysis of whole-slide images (WSIs) in computational pathology. However, traditional MIL approaches often lose crucial contextual information, while transformer-based variants, though more expressive, suffer from quadratic complexity and redundant computations. To address these limitations, we propose HookMIL, a context-aware and computationally efficient MIL framework that leverages compact, learnable hook tokens for structured contextual aggregation. These tokens can be initialized from (i) key-patch visual features, (ii) text embeddings from vision-language pathology models, and (iii) spatially grounded features from spatial transcriptomics-vision models. This multimodal initialization enables Hook Tokens to incorporate rich textual and spatial priors, accelerating convergence and enhancing representation quality. During training, Hook tokens interact with instances through bidirectional attention with linear complexity. To further promote specialization, we introduce a Hook Diversity Loss that encourages each token to focus on distinct histopathological patterns. Additionally, a hook-to-hook communication mechanism refines contextual interactions while minimizing redundancy. Extensive experiments on four public pathology datasets demonstrate that HookMIL achieves state-of-the-art performance, with improved computational efficiency and interpretability. Codes are available at https://github.com/lingxitong/HookMIL.
- Abstract(参考訳): MIL(Multiple Instance Learning)は、計算病理学における全スライディング画像(WSI)の弱教師付き解析を可能にする。
しかし、従来のMILアプローチはしばしば重要な文脈情報を失うが、トランスフォーマーベースの変種はより表現力があるものの、二次的な複雑さと冗長な計算に悩まされている。
これらの制約に対処するために、構造化コンテキストアグリゲーションのために、コンパクトで学習可能なフックトークンを利用するコンテキスト認識および計算効率のよいMILフレームワークであるHookMILを提案する。
これらのトークンは、初期化できます
(i)キーパッチの視覚的特徴
(II)視覚言語病理モデルからのテキスト埋め込み
(III)空間転写学-視覚モデルによる空間的接地特性
このマルチモーダル初期化により、Hook Tokensはリッチなテキストと空間的先行を組み込むことができ、収束を加速し、表現品質を向上することができる。
トレーニング中、Hookトークンは双方向の注意と線形複雑性を通じてインスタンスと対話する。
特殊化をさらに促進するため,各トークンが異なる病理パターンに注目するよう促すHook Diversity Lossを導入する。
さらに、フック間通信機構は冗長性を最小化しながらコンテキスト相互作用を洗練する。
4つの公開病理データセットに対する大規模な実験により、HookMILは計算効率と解釈性を改善して最先端のパフォーマンスを達成することが示された。
コードはhttps://github.com/lingxitong/HookMILで入手できる。
関連論文リスト
- MambaMIL+: Modeling Long-Term Contextual Patterns for Gigapixel Whole Slide Image [24.093388981091717]
多重インスタンス学習(MIL)は、各WSIをパッチレベルのインスタンスの袋として扱うことでソリューションを提供する。
Mambaは長いシーケンス学習のための有望な代替手段として登場し、数千のトークンに線形にスケーリングしている。
長距離依存性モデリングを維持しながら空間コンテキストを明示的に統合する新しいMILフレームワークであるMambaMIL+を提案する。
論文 参考訳(メタデータ) (2025-12-19T16:01:14Z) - CAPRMIL: Context-Aware Patch Representations for Multiple Instance Learning [7.966733148243115]
CAPRMILは、下流タスクにおける効果的な相関学習を促進するリッチなコンテキスト対応パッチ埋め込みを生成する。
以上の結果から,アグリゲーション前のリッチでコンテキスト対応のインスタンス表現を学習することは,全スライディング解析のための複雑なプールの代替として,効果的でスケーラブルな方法であることが示唆された。
論文 参考訳(メタデータ) (2025-12-16T16:16:45Z) - SemaMIL: Semantic-Aware Multiple Instance Learning with Retrieval-Guided State Space Modeling for Whole Slide Images [17.674866281320046]
SemaMILは,スライド画像全体から識別特徴を抽出する適応的手法である。
セマンティックに類似したパッチを、可逆的な置換によってシーケンスでクラスタ化する。
FLOPやパラメータを少なくして最先端のサブタイプ精度を実現する。
論文 参考訳(メタデータ) (2025-08-30T10:13:18Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Few-Shot Learning from Gigapixel Images via Hierarchical Vision-Language Alignment and Modeling [45.67022392509926]
HiVE-MILは、粗い(5x)と細い(20x)視覚/テキストノード間の親子リンクからなる統一グラフを構築するビジョン言語フレームワークである。
セマンティック一貫性をさらに強化するため、HiVE-MILには2段階のテキスト誘導動的フィルタリング機構が組み込まれている。
TCGA乳がん、肺がん、腎臓がんのデータセットの実験では、HiVE-MILは従来のMILと最近のVLMベースのMILアプローチの両方で一貫して優れていた。
論文 参考訳(メタデータ) (2025-05-23T14:48:32Z) - PSA-MIL: A Probabilistic Spatial Attention-Based Multiple Instance Learning for Whole Slide Image Classification [3.1406146587437904]
Whole Slide Images (WSI) は医療診断に広く用いられている高解像度デジタルスキャンである。
本稿では,空間コンテキストをアテンション機構に統合する新しいアテンションベースMILフレームワークであるPSA-MILを提案する。
我々は、文脈ベースラインと文脈ベースラインの両方で最先端のパフォーマンスを実現し、計算コストを大幅に削減した。
論文 参考訳(メタデータ) (2025-03-20T16:12:42Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Learning Multiscale Consistency for Self-supervised Electron Microscopy
Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。
当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。
効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文 参考訳(メタデータ) (2023-08-19T05:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。