論文の概要: BioVLM: Routing Prompts, Not Parameters, for Cross-Modality Generalization in Biomedical VLMs
- arxiv url: http://arxiv.org/abs/2604.17629v1
- Date: Sun, 19 Apr 2026 21:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.611851
- Title: BioVLM: Routing Prompts, Not Parameters, for Cross-Modality Generalization in Biomedical VLMs
- Title(参考訳): BioVLM: バイオメディカルVLMにおけるクロスモーダル一般化のためのパラメータではなく、ルーティングプロンプト
- Authors: Mainak Singha, Tanisha Gupta, Ankit Jha, Muhammad Haris Khan, Sayantani Ghosh, Biplab Banerjee,
- Abstract要約: BioVLMは、広範囲のバックボーンを微調整することなく、クロスドメインの一般化を改善するプロンプト学習フレームワークである。
MedMNIST+ 2Dデータセットで、BioVLMは3つの異なる一般化設定にまたがって、新しい最先端の技術を達成している。
- 参考スコア(独自算出の注目度): 38.20973682908207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained biomedical vision-language models (VLMs) such as BioMedCLIP perform well on average but often degrade on challenging modalities where inter-class margins are small and acquisition-specific variations are pronounced, especially under few-shot supervision and when modality priors differ from pretraining corpora substantially. We propose BioVLM, a prompt-learning framework that improves cross-domain generalization without extensive backbone fine-tuning. BioVLM learns a diverse prompt bank and introduces dynamic prompt selection: for each input, it selects the most discriminative prompts via a low-entropy criterion on the predictive distribution, effectively coupling sparse few-shot evidence with rich LLM semantic priors. To strengthen this coupling, we distill high-confidence LLM-derived attributes and enforce robust knowledge transfer through strong/weak augmentation consistency. At test time, BioVLM adapts by choosing modality-appropriate prompts, enabling transfer to unseen categories and domains, while keeping training lightweight and inference efficient. On 11 MedMNIST+ 2D datasets, BioVLM achieves new state of the art across three distinct generalization settings. Codes are available at https://github.com/mainaksingha01/BioVLM.
- Abstract(参考訳): BioMedCLIPのような事前訓練されたバイオメディカルビジョン言語モデル(VLM)は、平均的には良好に機能するが、クラス間マージンが小さく、獲得固有のバリエーションが発音される場合や、特に数ショットの監督下では、モダリティが事前訓練のコーパスと大きく異なる場合など、困難なモダリティに対して劣化することが多い。
バックボーンの微調整を伴わずにクロスドメインの一般化を改善するプロンプト学習フレームワークであるBioVLMを提案する。
BioVLMは多様なプロンプトバンクを学習し、動的プロンプト選択を導入する。各入力に対して、予測分布の低エントロピー基準によって最も差別的なプロンプトを選択する。
この結合性を強化するために,高信頼LLM特性を蒸留し,強弱化の整合性を通じて堅牢な知識伝達を行う。
テスト時にBioVLMは、モダリティに適したプロンプトを選択して適応し、未確認のカテゴリやドメインへの転送を可能にし、トレーニングを軽量かつ推論効率に維持する。
11のMedMNIST+ 2Dデータセットで、BioVLMは3つの異なる一般化設定にまたがって、最先端の新たなデータセットを実現している。
コードはhttps://github.com/mainaksingha01/BioVLMで公開されている。
関連論文リスト
- A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - vMFCoOp: Towards Equilibrium on a Unified Hyperspherical Manifold for Prompting Biomedical VLMs [7.668768558131368]
共有超球面マニフォールド上のvon Mises-Fisher(vMF)分布を逆推定するフレームワークであるvMFCoOpを提案する。
vMFCoOpは、14の医療データセット、12の医療画像モダリティ、13の解剖学的領域で一貫した改善を示し、精度、一般化、臨床応用性において最先端の手法より優れている。
論文 参考訳(メタデータ) (2025-11-12T18:38:33Z) - BioVERSE: Representation Alignment of Biomedical Modalities to LLMs for Multi-Modal Reasoning [0.36855563110245826]
本稿では,事前学習したBioFMをモダリティエンコーダとして適応する2段階のアプローチであるBIOVERSEを提案する。
このアプローチはまず、各モダリティを共有 LLM 空間に整列する。
次に、マルチモーダルデータによる標準的な命令チューニングを適用して、下流の推論のためにそれらをまとめる。
論文 参考訳(メタデータ) (2025-10-01T20:07:36Z) - MuSACo: Multimodal Subject-Specific Selection and Adaptation for Expression Recognition with Co-Training [52.99217736494484]
パーソナライズされた表現認識のためのマルチモーダルな主題固有の選択と適応法であるMuSACoを紹介する。
これにより、MuSACoは、ストレスや痛みに対する患者固有の評価など、デジタルヘルスにおける感情的コンピューティングアプリケーションに関係している。
BioVid と StressID というマルチモーダル ER データセットに対する実験結果から,MuSACo が UDA (blending) および最先端 MSDA 法より優れていることが示された。
論文 参考訳(メタデータ) (2025-08-17T23:08:21Z) - Biology-Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [55.74944165932666]
本稿では,生物配列の大規模学習データセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンス関連タスクをブリッジし、その汎用性と推論を強化する。
また,マルチオミクスタスクにおける現状のLLMの,専門訓練なしでの大幅な制限を強調した。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - MVKTrans: Multi-View Knowledge Transfer for Robust Multiomics Classification [14.533025681231294]
そこで本研究では,生物内および生物間知識を適応的に伝達する多視点知識伝達学習フレームワークを提案する。
具体的には、未ラベルデータに基づいて訓練されたグラフコントラストモジュールを設計し、基礎となるオミクス内パターンを教師付きタスクに効果的に学習し、転送する。
異なる疾患および/またはサンプルにおけるモダリティの識別能力の変化を考慮して, 適応型および双方向のクロスオミクス蒸留モジュールを導入する。
論文 参考訳(メタデータ) (2024-11-13T15:45:46Z) - Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。
k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-12-15T14:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。