論文の概要: MUSE: Harnessing Precise and Diverse Semantics for Few-Shot Whole Slide Image Classification
- arxiv url: http://arxiv.org/abs/2602.20873v1
- Date: Tue, 24 Feb 2026 13:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.757496
- Title: MUSE: Harnessing Precise and Diverse Semantics for Few-Shot Whole Slide Image Classification
- Title(参考訳): MUSE:Few-Shot Whole Slide画像分類のための精度とディヴァースセマンティクスのハーネス化
- Authors: Jiahao Xu, Sheng Huang, Xin Zhang, Zhixiong Nan, Jiajun Dong, Nankun Mu,
- Abstract要約: コンピュータ病理学において、スライド画像の分類は、主に専門家ラベル付きスライドの極端な不足によって行われる。
最近の視覚言語法では、大きな言語モデルによって生成されるテキスト意味論が取り入れられているが、これらの記述を静的なクラスレベルの先行概念として扱い、全てのサンプル間で共有され、サンプルの精査が欠如している。
MUlti-view Semantic Enhancement (MUSE) は、まず、サンプルワイド適応により意味的精度を洗練し、次いで、検索強化マルチビュー生成により意味的豊かさを向上するフレームワークである。
- 参考スコア(独自算出の注目度): 16.895269678640595
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In computational pathology, few-shot whole slide image classification is primarily driven by the extreme scarcity of expert-labeled slides. Recent vision-language methods incorporate textual semantics generated by large language models, but treat these descriptions as static class-level priors that are shared across all samples and lack sample-wise refinement. This limits both the diversity and precision of visual-semantic alignment, hindering generalization under limited supervision. To overcome this, we propose the stochastic MUlti-view Semantic Enhancement (MUSE), a framework that first refines semantic precision via sample-wise adaptation and then enhances semantic richness through retrieval-augmented multi-view generation. Specifically, MUSE introduces Sample-wise Fine-grained Semantic Enhancement (SFSE), which yields a fine-grained semantic prior for each sample through MoE-based adaptive visual-semantic interaction. Guided by this prior, Stochastic Multi-view Model Optimization (SMMO) constructs an LLM-generated knowledge base of diverse pathological descriptions per class, then retrieves and stochastically integrates multiple matched textual views during training. These dynamically selected texts serve as enriched semantic supervisions to stochastically optimize the vision-language model, promoting robustness and mitigating overfitting. Experiments on three benchmark WSI datasets show that MUSE consistently outperforms existing vision-language baselines in few-shot settings, demonstrating that effective few-shot pathology learning requires not only richer semantic sources but also their active and sample-aware semantic optimization. Our code is available at: https://github.com/JiahaoXu-god/CVPR2026_MUSE.
- Abstract(参考訳): コンピュータ病理学において、スライド画像の分類は、主に専門家ラベル付きスライドの極端な不足によって行われる。
最近の視覚言語法では、大きな言語モデルによって生成されるテキスト意味論が取り入れられているが、これらの記述を静的なクラスレベルの先行概念として扱い、全てのサンプル間で共有され、サンプルの精査が欠如している。
これにより、視覚的セマンティックアライメントの多様性と精度の両方が制限され、限られた監督下での一般化を妨げる。
これを解決するために,まず,サンプルワイド適応により意味的精度を向上し,さらに検索拡張マルチビュー生成により意味的富度を高めるフレームワークであるMUSEを提案する。
具体的には、MUSEはサンプルワイド・ファイン・グラニュアル・セマンティック・エンハンスメント(SFSE)を導入し、MoEベースの適応的視覚・セマンティック・インタラクションを通じて各サンプルに対してよりきめ細かなセマンティック・セマンティック・セマンティック・エンハンスメントをもたらす。
この前もって、Stochastic Multi-view Model Optimization (SMMO) は、クラスごとの様々な病理学的記述のLLM生成知識ベースを構築し、トレーニング中に複数のマッチしたテキストビューを検索し、確率的に統合する。
これらの動的に選択されたテキストは、視覚言語モデルを統計的に最適化し、堅牢性を促進し、過度な適合を緩和する、豊富なセマンティック・インスペクタとして機能する。
3つのベンチマークWSIデータセットの実験は、MUSEが既存の視覚言語ベースラインを数ショット設定で一貫して上回り、効果的な数ショットの病理学習にはよりリッチなセマンティックソースだけでなく、アクティブでサンプル対応のセマンティック最適化が必要であることを示した。
私たちのコードは、https://github.com/JiahaoXu-god/CVPR2026_MUSEで利用可能です。
関連論文リスト
- MAPLE: Multi-scale Attribute-enhanced Prompt Learning for Few-shot Whole Slide Image Classification [31.29816380834296]
マルチスケールな視覚的セマンティクスを統合し,エンティティレベルとスライドレベルの両方で予測を行う,少数ショットWSI分類のための階層的フレームワークを提案する。
3つのがんコホートの結果から,病理診断におけるアプローチの有効性が確認された。
論文 参考訳(メタデータ) (2025-09-30T06:57:56Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Remote Sensing Large Vision-Language Model: Semantic-augmented Multi-level Alignment and Semantic-aware Expert Modeling [42.46176089721314]
LVLM(Large Vision and Language Models)は、自然画像領域における様々な視覚言語タスクに強いパフォーマンスを示す。
リモートセンシング(RS)への応用は、視覚的外観、オブジェクトスケール、セマンティクスに大きな領域差があるため、いまだ探索されていない。
本稿では,RS理解に適した新しいLVLMフレームワークを提案する。セマンティック拡張多レベルアライメントとセマンティック対応エキスパートモデリングである。
論文 参考訳(メタデータ) (2025-06-27T02:31:37Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Improving vision-language alignment with graph spiking hybrid Networks [10.88584928028832]
本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。
視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文 参考訳(メタデータ) (2025-01-31T11:55:17Z) - Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction [17.989559761931435]
本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction"フレームワークを提案する。
局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。
本手法は, TCGA肺がんデータセットにおいて, 高い一般化性, 強い転移性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:29:53Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。