論文の概要: Libra-MIL: Multimodal Prototypes Stereoscopic Infused with Task-specific Language Priors for Few-shot Whole Slide Image Classification
- arxiv url: http://arxiv.org/abs/2511.07941v1
- Date: Wed, 12 Nov 2025 01:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.559384
- Title: Libra-MIL: Multimodal Prototypes Stereoscopic Infused with Task-specific Language Priors for Few-shot Whole Slide Image Classification
- Title(参考訳): Libra-MIL:Few-shot Whole Slide Image 分類のためのタスク固有言語前処理によるステレオスコープ
- Authors: Zhenfeng Zhuang, Fangyu Zhou, Liansheng Wang,
- Abstract要約: 大規模言語モデル(LLM)は、計算病理学において有望な方向性として現れつつある。
既存の視覚言語によるMIL(Multi-Instance Learning)手法では、一方向指導を用いることが多い。
本稿では,双方向インタラクションを促進するマルチモーダルプロトタイプベースのマルチインスタンス学習を提案する。
- 参考スコア(独自算出の注目度): 18.928408687991368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) are emerging as a promising direction in computational pathology, the substantial computational cost of giga-pixel Whole Slide Images (WSIs) necessitates the use of Multi-Instance Learning (MIL) to enable effective modeling. A key challenge is that pathological tasks typically provide only bag-level labels, while instance-level descriptions generated by LLMs often suffer from bias due to a lack of fine-grained medical knowledge. To address this, we propose that constructing task-specific pathological entity prototypes is crucial for learning generalizable features and enhancing model interpretability. Furthermore, existing vision-language MIL methods often employ unidirectional guidance, limiting cross-modal synergy. In this paper, we introduce a novel approach, Multimodal Prototype-based Multi-Instance Learning, that promotes bidirectional interaction through a balanced information compression scheme. Specifically, we leverage a frozen LLM to generate task-specific pathological entity descriptions, which are learned as text prototypes. Concurrently, the vision branch learns instance-level prototypes to mitigate the model's reliance on redundant data. For the fusion stage, we employ the Stereoscopic Optimal Transport (SOT) algorithm, which is based on a similarity metric, thereby facilitating broader semantic alignment in a higher-dimensional space. We conduct few-shot classification and explainability experiments on three distinct cancer datasets, and the results demonstrate the superior generalization capabilities of our proposed method.
- Abstract(参考訳): 大規模言語モデル(LLMs)は計算病理学において有望な方向として現れつつあるが、ギガピクセルの全体スライド画像(WSIs)の計算コストは、効果的なモデリングを可能にするためにマルチインスタンス学習(MIL)を使用する必要がある。
主な課題は、病理的なタスクがバッグレベルのラベルのみを提供するのに対して、LCMが生成するインスタンスレベルの記述は、詳細な医療知識の欠如によってバイアスに悩まされることが多いことである。
そこで本研究では,タスク固有の病的実体のプロトタイプの構築が,一般化可能な特徴を学習し,モデルの解釈可能性を高める上で重要であることを提案する。
さらに、既存の視覚言語MIL法では、一方向誘導を用いて、モーダル間のシナジーを制限していることが多い。
本稿では,バランスの取れた情報圧縮方式により双方向インタラクションを促進するマルチモーダルプロトタイプベースのマルチインスタンス学習を提案する。
具体的には、凍結したLCMを利用して、テキストプロトタイプとして学習したタスク固有の病理学的実体記述を生成する。
同時に、ビジョンブランチは、モデルの冗長データへの依存を軽減するために、インスタンスレベルのプロトタイプを学ぶ。
融合段階では、類似度測定値に基づく立体視最適輸送(SOT)アルゴリズムを用い、より高次元空間におけるより広い意味的アライメントを容易にする。
本研究は, 3つの異なる癌データセットの分類と説明可能性実験を行い, 提案手法のより優れた一般化能力を実証した。
関連論文リスト
- IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。
産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。
MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2025-10-16T02:48:05Z) - Connecting Giants: Synergistic Knowledge Transfer of Large Multimodal Models for Few-Shot Learning [61.73934102302588]
少数ショット学習は、限られたトレーニングサンプルで新しいクラスを分類するという課題に対処する。
本稿では,大規模マルチモーダルモデルから多様かつ相補的な知識を効果的に伝達する新しいフレームワーク,Synergistic Knowledge Transferを提案する。
単純な数ショットのビジョンエンコーダと組み合わせても、SynTransは現在の最先端手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-10-13T08:06:23Z) - Leveraging Shared Prototypes for a Multimodal Pulse Motion Foundation Model [4.895784700544358]
ProtoMMは、共通の埋め込み空間に不均一なモダリティを固定するために、共有プロトタイプ辞書を導入する新しいフレームワークである。
明示的なネガティブサンプリングではなく,共有プロトタイプを囲む表現をクラスタリングすることで,モダリティ間の相補的な情報を捕捉し,生理的信号に対するコヒーレントな"共通言語"を提供する。
論文 参考訳(メタデータ) (2025-10-10T18:13:38Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - HyperMM : Robust Multimodal Learning with Varying-sized Inputs [4.377889826841039]
HyperMMは、さまざまなサイズの入力で学習するために設計されたエンドツーエンドフレームワークである。
本稿では,条件付きハイパーネットワークを用いたユニバーサル特徴抽出器のトレーニング手法を提案する。
アルツハイマー病の診断と乳癌の分類の2つの課題において,本手法の利点を実験的に実証した。
論文 参考訳(メタデータ) (2024-07-30T12:13:18Z) - VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition [3.4923338594757674]
大型言語モデル(LLM)は、様々な種類のエンティティを抽出できるモデルを訓練するために使用することができる。
本稿では,オープンソースのLLM LLaMA2をバックボーンモデルとして利用し,異なるタイプのエンティティとデータセットを区別するための具体的な命令を設計する。
我々のモデルVANERは、パラメータの小さな分割で訓練され、従来のLLMモデルよりも大幅に優れており、LLMをベースとしたモデルとして初めて、従来の最先端のBioNERシステムの大部分を上回りました。
論文 参考訳(メタデータ) (2024-04-27T09:00:39Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。