論文の概要: Decoupling Clinical and Class-Agnostic Features for Reliable Few-Shot Adaptation under Shift
- arxiv url: http://arxiv.org/abs/2509.09397v1
- Date: Thu, 11 Sep 2025 12:26:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.380492
- Title: Decoupling Clinical and Class-Agnostic Features for Reliable Few-Shot Adaptation under Shift
- Title(参考訳): シフト条件下でのFew-Shot適応のための臨床的特徴とクラス非依存的特徴の分離
- Authors: Umaima Rahman, Raza Imam, Mohammad Yaqub, Dwarikanath Mahapatra,
- Abstract要約: 医療ビジョン言語モデル(VLM)は、臨床診断支援を約束するが、分布シフトによる信頼性は、安全なデプロイメントにとって大きな関心事である。
そこで我々はDRiFtを提案する。DRiFtは機能分離フレームワークで、臨床的に関連する信号をタスク非依存のノイズから明確に分離する。
提案手法は,従来のプロンプトベースの手法に比べて,Top-1精度+11.4%,Macro-F1+3.3%向上する。
- 参考スコア(独自算出の注目度): 12.373281238541296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical vision-language models (VLMs) offer promise for clinical decision support, yet their reliability under distribution shifts remains a major concern for safe deployment. These models often learn task-agnostic correlations due to variability in imaging protocols and free-text reports, limiting their generalizability and increasing the risk of failure in real-world settings. We propose DRiFt, a structured feature decoupling framework that explicitly separates clinically relevant signals from task-agnostic noise using parameter-efficient tuning (LoRA) and learnable prompt tokens. To enhance cross-modal alignment and reduce uncertainty, we curate high-quality, clinically grounded image-text pairs by generating captions for a diverse medical dataset. Our approach improves in-distribution performance by +11.4% Top-1 accuracy and +3.3% Macro-F1 over prior prompt-based methods, while maintaining strong robustness across unseen datasets. Ablation studies reveal that disentangling task-relevant features and careful alignment significantly enhance model generalization and reduce unpredictable behavior under domain shift. These insights contribute toward building safer, more trustworthy VLMs for clinical use. The code is available at https://github.com/rumaima/DRiFt.
- Abstract(参考訳): 医療ビジョン言語モデル(VLM)は、臨床診断支援を約束するが、分布シフトによる信頼性は、安全なデプロイメントにとって大きな関心事である。
これらのモデルは、画像プロトコルや自由テキストレポートのばらつきによるタスク非依存の相関を学習し、それらの一般化性を制限し、現実世界の設定における失敗のリスクを増大させる。
パラメータ係数チューニング(LoRA)と学習可能なプロンプトトークンを用いて,臨床的に関連のある信号をタスク非依存のノイズから明確に分離する構造的特徴分離フレームワークであるDRiFtを提案する。
クロスモーダルアライメントを強化し,不確実性を低減するため,多様な医療データセットのキャプションを生成し,高品質で臨床的に基盤付けられた画像テキストペアをキュレートする。
提案手法では,従来のプロンプトベースの手法よりも,+11.4%のTop-1精度,+3.3%のMacro-F1の性能向上を実現している。
アブレーション研究により、不連続なタスク関連特徴と注意的なアライメントがモデルの一般化を著しく促進し、ドメインシフトの下で予測不可能な振る舞いを減少させることが明らかとなった。
これらの知見は、より安全で信頼性の高い臨床用VLMの構築に寄与する。
コードはhttps://github.com/rumaima/DRiFt.comで公開されている。
関連論文リスト
- Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Decentralized LoRA Augmented Transformer with Context-aware Multi-scale Feature Learning for Secured Eye Diagnosis [2.1358421658740214]
本稿では、コンテキスト認識型マルチスケールパッチ埋め込み、ローランド適応(LoRA)、知識蒸留、フェデレーション学習を統合し、これらの課題に統一的に対処する新しいデータ効率画像変換器(DeiT)ベースのフレームワークを提案する。
提案モデルでは,マルチスケールパッチ表現と局所的および大域的注意機構を活用することで,局所的および大域的網膜特徴を効果的に捉えている。
論文 参考訳(メタデータ) (2025-05-11T13:51:56Z) - SURE-VQA: Systematic Understanding of Robustness Evaluation in Medical VQA Tasks [2.033441577169909]
VLM(Vision-Language Models)は、VQA(Visual Question Answering)のような医療タスクにおいて大きな可能性を秘めている。
目に見えないデータに対する分散シフトに対する堅牢性は、安全なデプロイメントにとって重要な関心事です。
私たちは、現在の落とし穴を克服する3つの重要な要件を中心に、SURE-VQAと呼ばれる新しいフレームワークを紹介します。
論文 参考訳(メタデータ) (2024-11-29T13:22:52Z) - Enhancing Osteoporosis Detection: An Explainable Multi-Modal Learning Framework with Feature Fusion and Variable Clustering [6.196283036344105]
骨粗しょう症は、特に高齢者の骨折リスクを高める一般的な病態である。
本研究は,臨床および画像データを統合し,診断精度とモデル解釈性を向上させる新しい多モード学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-01T13:58:15Z) - Which Client is Reliable?: A Reliable and Personalized Prompt-based Federated Learning for Medical Image Question Answering [51.26412822853409]
本稿では,医学的視覚的質問応答(VQA)モデルのための,パーソナライズド・フェデレーションド・ラーニング(pFL)手法を提案する。
提案手法では,学習可能なプロンプトをTransformerアーキテクチャに導入し,膨大な計算コストを伴わずに,多様な医療データセット上で効率的にトレーニングする。
論文 参考訳(メタデータ) (2024-10-23T00:31:17Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。