論文の概要: Few-Shot Learning from Gigapixel Images via Hierarchical Vision-Language Alignment and Modeling
- arxiv url: http://arxiv.org/abs/2505.17982v3
- Date: Wed, 28 May 2025 01:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.721384
- Title: Few-Shot Learning from Gigapixel Images via Hierarchical Vision-Language Alignment and Modeling
- Title(参考訳): 階層型視覚言語アライメントとモデリングによるギガピクセル画像からのFew-Shot学習
- Authors: Bryan Wong, Jong Woo Kim, Huazhu Fu, Mun Yong Yi,
- Abstract要約: HiVE-MILは階層的な視覚言語フレームワークであり、粗い(5x)と細い(20x)視覚/テキストノード間の親子リンクからなる統一グラフを構築する。
セマンティック一貫性をさらに強化するため、HiVE-MILには2段階のテキスト誘導動的フィルタリング機構が組み込まれている。
TCGA乳がん、肺がん、腎臓がんのデータセットの実験では、HiVE-MILは従来のMILと最近のVLMベースのMILアプローチの両方で一貫して優れていた。
- 参考スコア(独自算出の注目度): 34.148088250182674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have recently been integrated into multiple instance learning (MIL) frameworks to address the challenge of few-shot, weakly supervised classification of whole slide images (WSIs). A key trend involves leveraging multi-scale information to better represent hierarchical tissue structures. However, existing methods often face two key limitations: (1) insufficient modeling of interactions within the same modalities across scales (e.g., 5x and 20x) and (2) inadequate alignment between visual and textual modalities on the same scale. To address these gaps, we propose HiVE-MIL, a hierarchical vision-language framework that constructs a unified graph consisting of (1) parent-child links between coarse (5x) and fine (20x) visual/textual nodes to capture hierarchical relationships, and (2) heterogeneous intra-scale edges linking visual and textual nodes on the same scale. To further enhance semantic consistency, HiVE-MIL incorporates a two-stage, text-guided dynamic filtering mechanism that removes weakly correlated patch-text pairs, and introduces a hierarchical contrastive loss to align textual semantics across scales. Extensive experiments on TCGA breast, lung, and kidney cancer datasets demonstrate that HiVE-MIL consistently outperforms both traditional MIL and recent VLM-based MIL approaches, achieving gains of up to 4.1% in macro F1 under 16-shot settings. Our results demonstrate the value of jointly modeling hierarchical structure and multimodal alignment for efficient and scalable learning from limited pathology data. The code is available at https://github.com/bryanwong17/HiVE-MIL
- Abstract(参考訳): 視覚言語モデル(VLM)は、最近、スライド画像全体(WSI)の弱教師付き分類の課題に対処するために、複数のインスタンス学習(MIL)フレームワークに統合されている。
重要なトレンドは、階層的な組織構造をより良く表現するために、マルチスケール情報を活用することである。
しかし、既存の手法では、(1)同一のモード内での相互作用のモデリングが不十分で(例えば、5x、20x)、(2)同じスケールでの視覚的モードとテキスト的モードの整合性が不十分である。
これらのギャップに対処するために,(1)粗い(5x)と細い(20x)の視覚/テキストノード間の親子リンクからなる統一グラフを構築する階層型視覚言語フレームワークHiVE-MILを提案する。
セマンティック一貫性をさらに強化するため、HiVE-MILは2段階のテキスト誘導動的フィルタリング機構を導入し、弱相関のパッチとテキストのペアを取り除き、階層的なコントラスト損失を導入し、テキストのセマンティクスをスケールにわたって整列させる。
TCGAの乳がん、肺がん、腎臓がんのデータセットに関する大規模な実験は、HiVE-MILが従来のMILと最近のVLMベースのMILアプローチの両方を一貫して上回り、マクロF1では16ショット設定で最大4.1%の上昇を達成していることを示している。
本研究は, 階層構造とマルチモーダルアライメントを併用して, 限られた病理データから効率よく, スケーラブルな学習を行うことの価値を実証するものである。
コードはhttps://github.com/bryanwong17/HiVE-MILで公開されている。
関連論文リスト
- MAGE: Multimodal Alignment and Generation Enhancement via Bridging Visual and Semantic Spaces [23.447713697204225]
MAGEは、革新的なアライメント機構を通じて視覚とテキストの意味空間をブリッジする新しいフレームワークである。
我々は、クロスエントロピーと平均二乗誤差を組み合わせたトレーニング戦略を採用し、アライメント効果を著しく向上させる。
提案するマルチモーダル大規模モデルアーキテクチャであるMAGEは,様々な評価ベンチマークにおける類似の手法と比較して,性能が大幅に向上した。
論文 参考訳(メタデータ) (2025-07-29T12:17:46Z) - HiLa: Hierarchical Vision-Language Collaboration for Cancer Survival Prediction [55.00788339683146]
生存予測を改善するための新しい階層型視覚・言語協調フレームワークを提案する。
具体的には、HiLaは事前訓練された特徴抽出器を使用して、パッチレベルとリージョンレベルの両方でWSIから階層的な視覚的特徴を生成する。
このap-proachは、プロンプトから異なる生存関連属性に対応する識別的視覚特徴の包括的学習を可能にする。
論文 参考訳(メタデータ) (2025-07-07T02:06:25Z) - A Spatially-Aware Multiple Instance Learning Framework for Digital Pathology [4.012490059423154]
マルチプル・インスタンス・ラーニング (MIL) は、スライド画像全体を用いた病理学における弱い教師付き分類のための有望なアプローチである。
トランスフォーマーベースMIL(Transformer Based MIL)のような最近の進歩は、空間的コンテキストとパッチ間関係を取り入れている。
本研究では,この問題に対処するための対話対応表現を統合することで,ABMILフレームワークを強化する。
論文 参考訳(メタデータ) (2025-04-24T08:53:46Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - The Role of Graph-based MIL and Interventional Training in the Generalization of WSI Classifiers [8.867734798489037]
病理スライドの高解像度デジタルスキャンを含むWSI(Whole Slide Imaging)は、がん診断のゴールドスタンダードとなっている。
ギガピクセルの解像度と注釈付きデータセットの不足は、ディープラーニングモデルの課題を示している。
WSI 分類のための新しいフレームワークである Graph-based Multiple Instance Learning with Interventional Training (GMIL-IT) を導入する。
論文 参考訳(メタデータ) (2025-01-31T11:21:08Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models [56.37780601189795]
本稿では,WSI分析のためのフレームワークMamMILを提案する。
私たちは各WSIを非指向グラフとして表現します。
マンバが1次元シーケンスしか処理できない問題に対処するために、トポロジ対応の走査機構を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - Dual-Query Multiple Instance Learning for Dynamic Meta-Embedding based
Tumor Classification [5.121989578393729]
全スライド画像(WSI)の評価は、がんの診断と治療計画において困難かつ重要なステップである。
粗粒度のラベルは容易にアクセスでき、WSI分類がマルチインスタンス学習(MIL)の理想的なユースケースとなる。
埋め込み型Dual-Query MILパイプライン(DQ-MIL)を提案する。
論文 参考訳(メタデータ) (2023-07-14T17:06:49Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。