論文の概要: Multi-View Synergistic Learning with Vision-Language Adaption for Low-Resource Biomedical Image Classification
- arxiv url: http://arxiv.org/abs/2604.23977v1
- Date: Mon, 27 Apr 2026 02:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.706857
- Title: Multi-View Synergistic Learning with Vision-Language Adaption for Low-Resource Biomedical Image Classification
- Title(参考訳): 低リソースバイオメディカルイメージ分類のための視覚言語適応を用いた多視点総合学習
- Authors: Xiaoliu Luo, Minxue Xiao, Ting Xie, Mengzhu Wang, Huiqing Qi, Joey Tianyi Zhou, Taiping Zhang, Xu Wang,
- Abstract要約: MVSL(Multi-View Synergistic Learning)は、適応パラダイム、表現の粒度、疾患の意味的関係に対処する統合フレームワークである。
MVSLは、視覚的およびテキスト的エンコーダの適応を分離し、それぞれの表現特性を尊重する。
さらに、グローバルなイメージセマンティクスと局所的な病変レベルの証拠の両方を明示的にモデル化するために、多粒性コントラスト学習を導入する。
MVSLは、いくつかのショットとゼロショットの分類設定において、最先端のメソッドを一貫して上回る。
- 参考スコア(独自算出の注目度): 59.24009931000134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate biomedical image classification under low-resource conditions remains challenging due to limited annotations, subtle inter-class visual differences, and complex disease semantics. While vision--language models offer a promising foundation for mitigating data scarcity, their effective adaptation in biomedical settings is constrained by the need for parameter-efficient tuning alongside fine-grained and semantically consistent representation learning. In this work, we propose Multi-View Synergistic Learning (MVSL), a unified framework that addresses these challenges by jointly considering adaptation paradigms, representation granularity, and disease semantic relationships. MVSL decouples the adaptation of visual and textual encoders to respect their distinct representational characteristics, enabling more stable and effective parameter-efficient fine-tuning. It further introduces multi-granularity contrastive learning to explicitly model both global image semantics and localized lesion-level evidence, improving fine-grained discrimination for visually similar disease categories. In addition, MVSL preserves disease-level semantic structure by incorporating structured supervision derived from large language models, which constrains textual representations at the class level and indirectly regularizes visual embeddings through cross-modal alignment. Together, these components enable more stable cross-modal alignment and improved discrimination under limited supervision. Extensive experiments on $11$ public biomedical datasets spanning $9$ imaging modalities and $10$ anatomical regions demonstrate that MVSL consistently outperforms state-of-the-art methods in few-shot and zero-shot classification settings.
- Abstract(参考訳): 低リソース条件下での正確なバイオメディカル画像分類は、限られたアノテーション、微妙なクラス間視覚差、複雑な疾患のセマンティクスによって依然として困難である。
視覚言語モデルは、データの不足を軽減するための有望な基盤を提供するが、それらのバイオメディカルセッティングへの効果的な適応は、細かい粒度とセマンティックに整合した表現学習を伴うパラメータ効率チューニングの必要性によって制約される。
本研究では,適応パラダイム,表現の粒度,疾患の意味関係を共同で検討し,これらの課題に対処する統合フレームワークであるMVSLを提案する。
MVSLは、視覚的およびテキスト的エンコーダの適応を分離し、それぞれの表現特性を尊重し、より安定かつ効果的なパラメータ効率の微調整を可能にする。
さらに、多粒性コントラスト学習を導入し、大域的な画像意味論と局所的な病変レベルの証拠の両方を明示的にモデル化し、視覚的に類似した疾患カテゴリのきめ細かい識別を改善する。
さらに、MVSLは、クラスレベルでのテキスト表現を制約し、クロスモーダルアライメントを通じて視覚的埋め込みを間接的に規則化する、大きな言語モデルから導かれる構造的監督を組み込むことにより、疾患レベルの意味構造を保っている。
これらのコンポーネントは、より安定したクロスモーダルアライメントと、限定的な監督の下での差別の改善を可能にする。
9ドルの画像モダリティと10ドルの解剖学的領域にまたがる、11ドルの公開バイオメディカルデータセットに関する大規模な実験は、MVSLが数ショットとゼロショットの分類設定において、最先端の手法を一貫して上回っていることを実証している。
関連論文リスト
- Glo-VLMs: Leveraging Vision-Language Models for Fine-Grained Diseased Glomerulus Classification [7.87247433522498]
本稿では,視覚言語モデルの細粒度分類への適応を探求する体系的なフレームワークであるGlo-VLMを紹介する。
本手法は,臨床用テキストプロンプトとともに治療された病理画像を活用し,共同画像・テキスト表現学習を容易にする。
本研究は, 標準化されたマルチクラスメトリクスを用いて, 臨床応用のための大規模事前学習モデルの実用的要件と可能性を明らかにすることを目的として, 全モデルの評価を行う。
論文 参考訳(メタデータ) (2025-08-21T21:05:44Z) - A Vision-Language Foundation Model for Leaf Disease Identification [0.0]
葉の病原性同定は、スマート農業において重要な役割を担っている。
既存の多くの研究は、互いの限界を補うために画像とテキストのモダリティを統合するのに依然として苦労している。
これらの課題に対処する文脈対応の視覚言語基盤モデルであるSCOLDを提案する。
論文 参考訳(メタデータ) (2025-05-11T15:30:06Z) - Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images [7.048241543461529]
ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。
我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。
類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
論文 参考訳(メタデータ) (2025-03-13T12:18:37Z) - MIRROR: Multi-Modal Pathological Self-Supervised Representation Learning via Modality Alignment and Retention [57.044719143401664]
病理組織学と転写学は、腫瘍学の基本的なモダリティであり、疾患の形態学的および分子的側面を包含している。
モーダルアライメントと保持を両立させる新しいマルチモーダル表現学習法であるMIRRORを提案する。
がんの亜型化と生存分析のためのTCGAコホートに関する広範囲な評価は,MIRRORの優れた性能を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-03-01T07:02:30Z) - OTCXR: Rethinking Self-supervised Alignment using Optimal Transport for Chest X-ray Analysis [6.4136876268620115]
自己教師付き学習(SSL)は,X線などの医学的モダリティを解析するための有望な手法として登場した。
我々は,OTCXRを提案する。OTCXRは最適なトランスポート(OT)を利用して,密接なセマンティック不変性を学習する新しいSSLフレームワークである。
我々はOTCXRの有効性を3つの公開胸部X線データセットの総合的な実験により検証した。
論文 参考訳(メタデータ) (2024-04-18T02:59:48Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。