論文の概要: vMFCoOp: Towards Equilibrium on a Unified Hyperspherical Manifold for Prompting Biomedical VLMs
- arxiv url: http://arxiv.org/abs/2511.09540v2
- Date: Fri, 14 Nov 2025 01:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 13:23:30.735178
- Title: vMFCoOp: Towards Equilibrium on a Unified Hyperspherical Manifold for Prompting Biomedical VLMs
- Title(参考訳): vMFCoOp:バイオメディカルVLMのための統一超球面マニフォールドの平衡を目指して
- Authors: Minye Shao, Sihan Guo, Xinrun Li, Xingyu Miao, Haoran Duan, Yang Long,
- Abstract要約: 共有超球面マニフォールド上のvon Mises-Fisher(vMF)分布を逆推定するフレームワークであるvMFCoOpを提案する。
vMFCoOpは、14の医療データセット、12の医療画像モダリティ、13の解剖学的領域で一貫した改善を示し、精度、一般化、臨床応用性において最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 7.668768558131368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in context optimization (CoOp) guided by large language model (LLM)-distilled medical semantic priors offer a scalable alternative to manual prompt engineering and full fine-tuning for adapting biomedical CLIP-based vision-language models (VLMs). However, prompt learning in this context is challenged by semantic misalignment between LLMs and CLIP variants due to divergent training corpora and model architectures; it further lacks scalability across continuously evolving families of foundation models. More critically, pairwise multimodal alignment via conventional Euclidean-space optimization lacks the capacity to model unified representations or apply localized geometric constraints, which tends to amplify modality gaps in complex biomedical imaging and destabilize few-shot adaptation. In this work, we propose vMFCoOp, a framework that inversely estimates von Mises-Fisher (vMF) distributions on a shared Hyperspherical Manifold, aligning semantic biases between arbitrary LLMs and CLIP backbones via Unified Semantic Anchors to achieve robust biomedical prompting and superior few-shot classification. Grounded in three complementary constraints, vMFCoOp demonstrates consistent improvements across 14 medical datasets, 12 medical imaging modalities, and 13 anatomical regions, outperforming state-of-the-art methods in accuracy, generalization, and clinical applicability. This work aims to continuously expand to encompass more downstream applications, and the corresponding resources are intended to be shared through https://github.com/VinyehShaw/UniEqui.
- Abstract(参考訳): 大規模言語モデル (LLM) によって導かれる文脈最適化 (CoOp) の最近の進歩は、手動のプロンプト工学に代わるスケーラブルな代替手段を提供し、バイオメディカルCLIPベースのビジョン言語モデル (VLM) を適応するための完全な微調整を提供する。
しかし、この文脈での迅速な学習は、異なるトレーニングコーパスとモデルアーキテクチャにより、LLMとCLIPの変種間のセマンティックなミスアライメントによって挑戦される。
より重要なことは、従来のユークリッド空間最適化によるペアワイズ多重モーダルアライメントは、統一表現をモデル化したり、局所的な幾何学的制約を適用する能力に欠けており、複雑なバイオメディカルイメージングにおけるモダリティギャップを増幅し、少数ショット適応を不安定化する傾向がある。
本研究では,共有超球面マニフォールド上のvon Mises-Fisher(vMF)分布を逆推定するフレームワークであるvMFCoOpを提案する。
3つの相補的な制約により、vMFCoOpは14の医療データセット、12の医療画像モダリティ、13の解剖学的領域で一貫した改善を示し、精度、一般化、臨床応用性において最先端の手法より優れている。
この作業は、よりダウンストリームなアプリケーションの範囲を継続的に拡大することを目的としており、対応するリソースはhttps://github.com/VinyehShaw/UniEqui.comで共有される。
関連論文リスト
- scMRDR: A scalable and flexible framework for unpaired single-cell multi-omics data integration [53.683726781791385]
単一セルマルチオミクス(ScMRDR)と呼ばれるスケーラブルでフレキシブルな生成フレームワークを導入する。
本手法は, バッチ補正, モダリティアライメント, 生体信号保存の観点から, ベンチマークデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2025-10-28T21:28:39Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Medverse: A Universal Model for Full-Resolution 3D Medical Image Segmentation, Transformation and Enhancement [15.28003304776022]
インコンテキスト学習は、普遍的な医用画像解析に有望なパラダイムを提供する。
我々は22のデータセットで訓練された3次元医用画像の汎用ICLモデルである textbfMedverse を提案する。
Medverseは、予測を粗いものから細かいものへと段階的に洗練する、次世代の自己回帰型インコンテキスト学習フレームワークを採用している。
論文 参考訳(メタデータ) (2025-09-11T08:10:49Z) - NEARL-CLIP: Interacted Query Adaptation with Orthogonal Regularization for Medical Vision-Language Understanding [51.63264715941068]
textbfNEARL-CLIP (iunderlineNteracted quunderlineEry underlineAdaptation with ounderlineRthogonaunderlineL regularization)は、VLMベースの新しい相互モダリティ相互作用フレームワークである。
論文 参考訳(メタデータ) (2025-08-06T05:44:01Z) - FedSKD: Aggregation-free Model-heterogeneous Federated Learning using Multi-dimensional Similarity Knowledge Distillation [7.944298319589845]
フェデレートラーニング(FL)は、直接データを共有することなく、プライバシー保護のための協調モデルトレーニングを可能にする。
MHFL(Model-heterogeneous FL)は、クライアントが計算資源やアプリケーション固有のニーズに合わせて、不均一なアーキテクチャでパーソナライズされたモデルを訓練することを可能にする。
ピアツーピア(P2P)FLはサーバ依存を除去するが、モデルドリフトと知識の希釈に悩まされ、不均一な設定での有効性が制限される。
ラウンドロビンモデル循環による直接知識交換を容易にする新しいMHFLフレームワークであるFedSKDを提案する。
論文 参考訳(メタデータ) (2025-03-23T05:33:10Z) - MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。
我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。
我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文 参考訳(メタデータ) (2024-10-21T17:42:41Z) - OU-CoViT: Copula-Enhanced Bi-Channel Multi-Task Vision Transformers with Dual Adaptation for OU-UWF Images [6.710406784225201]
近縁超広視野画像(UWF)を用いた近視スクリーニングは,眼科領域におけるマルチタスク問題に対して有望な新しいパラダイムを示す。
OU-CoViT:OU-UWF画像のデュアル適応型Copula-Enhanced Bi-Channel Multi-Task Vision Transformer。
論文 参考訳(メタデータ) (2024-08-18T07:42:11Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。