論文の概要: Evi-Steer: Learning to Steer Biomedical Vision-Language Models through Efficient and Generalizable Evidential Tuning
- arxiv url: http://arxiv.org/abs/2605.26292v2
- Date: Sun, 31 May 2026 05:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.439141
- Title: Evi-Steer: Learning to Steer Biomedical Vision-Language Models through Efficient and Generalizable Evidential Tuning
- Title(参考訳): Evi-Steer: 効果的で汎用的なエビデンシャルチューニングによるバイオメディカルビジョンランゲージモデルの学習
- Authors: Taha Koleilat, Hassan Rivaz, Yiming Xiao,
- Abstract要約: Evi-SteerはBiomedCLIPのための明らかなクロスモーダルな低次元ステアリングフレームワークである。
完全なモデルパラメータの0.11%を更新しながら、不確実性に配慮したパラメータ効率の微調整を可能にする。
Evi-Steerは、数ショットの学習とドメインシフト設定の下で、最先端のメソッドを一貫して上回る。
- 参考スコア(独自算出の注目度): 9.71224567110431
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Parameter-efficient adaptation of vision-language foundation models is crucial for precise multimodal understanding of biomedical images, yet existing methods remain deterministic and often struggle under domain shift or ambiguous image-text alignment. This limitation is particularly critical in the clinic, where models should remain robust in low-data regimes and domain shifts. We present Evi-Steer, an evidential cross-modal low-dimensional steering framework for BiomedCLIP that enables uncertainty-aware parameter-efficient fine-tuning while updating only 0.11% of total model parameters. Our approach performs lightweight low-dimensional token updates in both vision and text encoders while simultaneously estimating epistemic uncertainty. These uncertainty estimates update gate residuals, allowing the model to adapt conservatively when evidence is weak. Furthermore, we introduce cross-modal confidence fusion based on Dempster-Shafer theory, enabling visual adaptation to be conditioned on textual confidence and suppressing conflicting or uncertain cross-modal updates. We conduct a comprehensive evaluation on 15 biomedical imaging datasets spanning 8 organs and 8 imaging modalities under few-shot learning and domain generalization settings. Evi-Steer consistently outperforms state-of-the-art methods under few-shot learning and domain shift settings, demonstrating a practical and robust pathway for deploying vision-language models in real-world clinical settings. Code is available at https://github.com/HealthX-Lab/Evi-Steer.
- Abstract(参考訳): バイオメディカルイメージの正確なマルチモーダル理解には、視覚言語基礎モデルのパラメータ効率の適応が不可欠であるが、既存の手法は決定論的であり、ドメインシフトや曖昧な画像テキストアライメントの下でしばしば苦労する。
この制限は、低データ体制やドメインシフトにおいてモデルが堅牢でなければならないクリニックにおいて特に重要である。
Evi-SteerはBiomedCLIPのための明らかなクロスモーダルな低次元ステアリングフレームワークであり、不確実性を考慮したパラメータ効率の微調整が可能であり、全体のモデルパラメータの0.11%しか更新できない。
本手法は,視力とテキストエンコーダの両方で低次元のトークンを軽量に更新し,同時にてんかんの不確かさを推定する。
これらの不確実性はゲート残差を更新し、証拠が弱いときにモデルを保守的に適応させる。
さらに,Dempster-Shafer理論に基づくクロスモーダル信頼融合を導入し,テキストの信頼度に基づいて視覚適応を調整し,矛盾や不確実なクロスモーダル更新を抑制する。
本研究は,8臓器に8つの画像モダリティを含む15のバイオメディカルイメージングデータセットについて,数ショットの学習とドメインの一般化設定による総合的な評価を行った。
Evi-Steerは、数ショットの学習とドメインシフト設定の下で、最先端の手法を一貫して上回り、現実の臨床環境でビジョン言語モデルをデプロイするための実用的で堅牢な経路を示す。
コードはhttps://github.com/HealthX-Lab/Evi-Steer.comで入手できる。
関連論文リスト
- Multi-View Synergistic Learning with Vision-Language Adaption for Low-Resource Biomedical Image Classification [59.24009931000134]
MVSL(Multi-View Synergistic Learning)は、適応パラダイム、表現の粒度、疾患の意味的関係に対処する統合フレームワークである。
MVSLは、視覚的およびテキスト的エンコーダの適応を分離し、それぞれの表現特性を尊重する。
さらに、グローバルなイメージセマンティクスと局所的な病変レベルの証拠の両方を明示的にモデル化するために、多粒性コントラスト学習を導入する。
MVSLは、いくつかのショットとゼロショットの分類設定において、最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-04-27T02:41:27Z) - Delving Aleatoric Uncertainty in Medical Image Segmentation via Vision Foundation Models [56.29123284262618]
本研究は,視覚基盤モデルの普遍的表現能力を生かして固有データ不確実性を推定することを提案する。
モデルのデコード表現の特徴の多様性を分析し,その特異値エネルギーを定量化し,各クラスに対する意味知覚尺度を定義する。
この基礎に基づいて,本研究は,(1)潜在的にノイズの多いサンプルを排除し,モデル学習品質を向上させるためのアレータリック不確実性認識データフィルタリング機構,(2)意味認識尺度に基づくトレーニング中にクラス固有の損失重みを適応的に調整する動的不確実性認識最適化戦略,およびトレーニング安定性を向上させるラベル認知機構の2つの不確実性駆動型アプリケーション戦略を設計する。
論文 参考訳(メタデータ) (2026-04-13T03:59:54Z) - Layout-Guided Controllable Pathology Image Generation with In-Context Diffusion Transformers [57.54843029965778]
制御可能な病理画像合成には、空間配置、組織形態、意味的詳細の信頼できる規制が必要である。
In-Context Diffusion Transformer (IC-DiT) は,空間レイアウト,テキスト記述,視覚的埋め込みを統合拡散変換器に組み込んだレイアウト認識生成モデルである。
IC-DiTは既存の方法よりも忠実度が高く、空間制御性が強く、診断の整合性が良くなる。
論文 参考訳(メタデータ) (2026-03-11T06:14:11Z) - Uncertainty-Aware Vision-Language Segmentation for Medical Imaging [12.545486211087791]
医療診断のための新しい不確実性を考慮したマルチモーダルセグメンテーションフレームワークを提案する。
本稿では,高効率なクロスモーダル融合を実現するために,軽量なステートスペースミキサ(SSMix)を備えたModality Decoding Attention Block (MoDAB)を提案する。
本研究は,視覚言語医学的セグメンテーションタスクにおいて,不確実性モデリングと構造化モダリティアライメントを取り入れることの重要性を強調した。
論文 参考訳(メタデータ) (2026-02-16T06:27:51Z) - Decoupling Clinical and Class-Agnostic Features for Reliable Few-Shot Adaptation under Shift [12.373281238541296]
医療ビジョン言語モデル(VLM)は、臨床診断支援を約束するが、分布シフトによる信頼性は、安全なデプロイメントにとって大きな関心事である。
そこで我々はDRiFtを提案する。DRiFtは機能分離フレームワークで、臨床的に関連する信号をタスク非依存のノイズから明確に分離する。
提案手法は,従来のプロンプトベースの手法に比べて,Top-1精度+11.4%,Macro-F1+3.3%向上する。
論文 参考訳(メタデータ) (2025-09-11T12:26:57Z) - Decentralized LoRA Augmented Transformer with Context-aware Multi-scale Feature Learning for Secured Eye Diagnosis [2.1358421658740214]
本稿では、コンテキスト認識型マルチスケールパッチ埋め込み、ローランド適応(LoRA)、知識蒸留、フェデレーション学習を統合し、これらの課題に統一的に対処する新しいデータ効率画像変換器(DeiT)ベースのフレームワークを提案する。
提案モデルでは,マルチスケールパッチ表現と局所的および大域的注意機構を活用することで,局所的および大域的網膜特徴を効果的に捉えている。
論文 参考訳(メタデータ) (2025-05-11T13:51:56Z) - BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models [2.2585213273821716]
本稿では,バイオメディカル画像解析のための新しいプロンプト学習フレームワークであるBiomedCoOpを提案する。
提案手法は,Large Language Models (LLMs) からの平均的なプロンプトアンサンブルとのセマンティック一貫性と,統計に基づくプロンプト選択戦略による知識蒸留を活用することで,効果的なプロンプト文脈学習を実現する。
9つのモダリティと10の臓器にまたがる11の医療データセットについて,提案手法を総合的に検証し,精度と一般化性の両方に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-11-21T19:13:04Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。