論文の概要: Few-Shot Learning from Gigapixel Images via Hierarchical Vision-Language Alignment and Modeling
- arxiv url: http://arxiv.org/abs/2505.17982v2
- Date: Tue, 27 May 2025 01:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 12:08:55.071357
- Title: Few-Shot Learning from Gigapixel Images via Hierarchical Vision-Language Alignment and Modeling
- Title(参考訳): 階層型視覚言語アライメントとモデリングによるギガピクセル画像からのFew-Shot学習
- Authors: Bryan Wong, Jong Woo Kim, Huazhu Fu, Mun Yong Yi,
- Abstract要約: HiVE-MILは階層的な視覚言語フレームワークであり、粗い(5x)と細い(20x)視覚/テキストノード間の親子リンクからなる統一グラフを構築する。
セマンティック一貫性をさらに強化するため、HiVE-MILには2段階のテキスト誘導動的フィルタリング機構が組み込まれている。
TCGA乳がん、肺がん、腎臓がんのデータセットの実験では、HiVE-MILは従来のMILと最近のVLMベースのMILアプローチの両方で一貫して優れていた。
- 参考スコア(独自算出の注目度): 34.148088250182674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have recently been integrated into multiple instance learning (MIL) frameworks to address the challenge of few-shot, weakly supervised classification of whole slide images (WSIs). A key trend involves leveraging multi-scale information to better represent hierarchical tissue structures. However, existing methods often face two key limitations: (1) insufficient modeling of interactions within the same modalities across scales (e.g., 5x and 20x) and (2) inadequate alignment between visual and textual modalities on the same scale. To address these gaps, we propose HiVE-MIL, a hierarchical vision-language framework that constructs a unified graph consisting of (1) parent-child links between coarse (5x) and fine (20x) visual/textual nodes to capture hierarchical relationships, and (2) heterogeneous intra-scale edges linking visual and textual nodes on the same scale. To further enhance semantic consistency, HiVE-MIL incorporates a two-stage, text-guided dynamic filtering mechanism that removes weakly correlated patch-text pairs, and introduces a hierarchical contrastive loss to align textual semantics across scales. Extensive experiments on TCGA breast, lung, and kidney cancer datasets demonstrate that HiVE-MIL consistently outperforms both traditional MIL and recent VLM-based MIL approaches, achieving gains of up to 4.1% in macro F1 under 16-shot settings. Our results demonstrate the value of jointly modeling hierarchical structure and multimodal alignment for efficient and scalable learning from limited pathology data. The code is available at https://github.com/bryanwong17/HiVE-MIL
- Abstract(参考訳): 視覚言語モデル(VLM)は、最近、スライド画像全体(WSI)の弱教師付き分類の課題に対処するために、複数のインスタンス学習(MIL)フレームワークに統合されている。
重要なトレンドは、階層的な組織構造をより良く表現するために、マルチスケール情報を活用することである。
しかし、既存の手法では、(1)同一のモード内での相互作用のモデリングが不十分で(例えば、5x、20x)、(2)同じスケールでの視覚的モードとテキスト的モードの整合性が不十分である。
これらのギャップに対処するために,(1)粗い(5x)と細い(20x)の視覚/テキストノード間の親子リンクからなる統一グラフを構築する階層型視覚言語フレームワークHiVE-MILを提案する。
セマンティック一貫性をさらに強化するため、HiVE-MILは2段階のテキスト誘導動的フィルタリング機構を導入し、弱相関のパッチとテキストのペアを取り除き、階層的なコントラスト損失を導入し、テキストのセマンティクスをスケールにわたって整列させる。
TCGAの乳がん、肺がん、腎臓がんのデータセットに関する大規模な実験は、HiVE-MILが従来のMILと最近のVLMベースのMILアプローチの両方を一貫して上回り、マクロF1では16ショット設定で最大4.1%の上昇を達成していることを示している。
本研究は, 階層構造とマルチモーダルアライメントを併用して, 限られた病理データから効率よく, スケーラブルな学習を行うことの価値を実証するものである。
コードはhttps://github.com/bryanwong17/HiVE-MILで公開されている。
関連論文リスト
- A Spatially-Aware Multiple Instance Learning Framework for Digital Pathology [4.012490059423154]
マルチプル・インスタンス・ラーニング (MIL) は、スライド画像全体を用いた病理学における弱い教師付き分類のための有望なアプローチである。
トランスフォーマーベースMIL(Transformer Based MIL)のような最近の進歩は、空間的コンテキストとパッチ間関係を取り入れている。
本研究では,この問題に対処するための対話対応表現を統合することで,ABMILフレームワークを強化する。
論文 参考訳(メタデータ) (2025-04-24T08:53:46Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。
私たちは各WSIを非指向グラフとして表現します。
マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - Dual-Query Multiple Instance Learning for Dynamic Meta-Embedding based
Tumor Classification [5.121989578393729]
全スライド画像(WSI)の評価は、がんの診断と治療計画において困難かつ重要なステップである。
粗粒度のラベルは容易にアクセスでき、WSI分類がマルチインスタンス学習(MIL)の理想的なユースケースとなる。
埋め込み型Dual-Query MILパイプライン(DQ-MIL)を提案する。
論文 参考訳(メタデータ) (2023-07-14T17:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。