論文の概要: SkinCLIP-VL: Consistency-Aware Vision-Language Learning for Multimodal Skin Cancer Diagnosis
- arxiv url: http://arxiv.org/abs/2603.21010v1
- Date: Sun, 22 Mar 2026 02:07:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.193
- Title: SkinCLIP-VL: Consistency-Aware Vision-Language Learning for Multimodal Skin Cancer Diagnosis
- Title(参考訳): SkinCLIP-VL:マルチモーダル皮膚癌診断のためのコンシステンシー対応ビジョンランゲージラーニング
- Authors: Zhixiang Lu, Shijie Xu, Kaicheng Yan, Xuyue Cai, Chong Zhang, Yulong Li, Angelos Stefanidis, Anh Nguyen, Jionglong Su,
- Abstract要約: SkinCLIP-VLは、皮膚がん診断の基礎モデルに適応する資源効率の高いフレームワークである。
冷凍CLIPエンコーダと軽量量子化Qwen2.5-VLをローランク適応(LoRA)により統合する。
- 参考スコア(独自算出の注目度): 14.562880027342933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of vision-language models (VLMs) in dermatology is hindered by the trilemma of high computational costs, extreme data scarcity, and the black-box nature of deep learning. To address these challenges, we present SkinCLIP-VL, a resource-efficient framework that adapts foundation models for trustworthy skin cancer diagnosis. Adopting a frozen perception, adaptive reasoning paradigm, we integrate a frozen CLIP encoder with a lightweight, quantized Qwen2.5-VL via low-rank adaptation (LoRA). To strictly align visual regions with clinical semantics under long-tailed distributions, we propose the Consistency-aware Focal Alignment (CFA) Loss. This objective synergizes focal re-weighting, semantic alignment, and calibration. On ISIC and Derm7pt benchmarks, SkinCLIP-VL surpasses 13B-parameter baselines by 4.3-6.2% in accuracy with 43% fewer parameters. Crucially, blinded expert evaluation and out-of-distribution testing confirm that our visually grounded rationales significantly enhance clinical trust compared to traditional saliency maps.
- Abstract(参考訳): 皮膚科学における視覚言語モデル(VLM)の展開は、高い計算コスト、極端なデータ不足、深層学習のブラックボックスの性質のトリレンマによって妨げられている。
これらの課題に対処するために、信頼に値する皮膚がん診断に基礎モデルを適用するリソース効率の高いフレームワークであるSkinCLIP-VLを提案する。
低ランク適応(LoRA)により,冷凍のCLIPエンコーダと軽量な量子化Qwen2.5-VLを統合する。
長期分布下での視覚領域と臨床意味を厳密に整合させるため,CFAロス(Consistency-aware Focal Alignment)を提案する。
この目的は、焦点の再重み付け、セマンティックアライメント、キャリブレーションを相乗化する。
ISICとDerm7ptのベンチマークでは、SkinCLIP-VLは13Bパラメータのベースラインを4.3-6.2%、パラメータは43%減った。
ブラインドの専門家評価とアウト・オブ・ディストリビューション・テストは、従来のサリエンシ・マップと比較して、視覚的に根拠付けられた根拠が臨床信頼を著しく向上させることを確認した。
関連論文リスト
- PREBA: Surgical Duration Prediction via PCA-Weighted Retrieval-Augmented LLMs and Bayesian Averaging Aggregation [51.96735866702332]
PreBAはPCA重み付き検索とベイズ平均アグリゲーションを統合した検索拡張フレームワークである。
例えば、PreBAはパフォーマンスを大幅に改善し、MAEを最大40%削減し、ゼロショット推論でR2を-0.13から0.62に引き上げる。
論文 参考訳(メタデータ) (2026-02-27T07:19:23Z) - Interpretable and backpropagation-free Green Learning for efficient multi-task echocardiographic segmentation and classification [23.395777551262494]
グリーンラーニングフレームワークは、左室(LV)セグメンテーションとLVEFの同時分類を実行する。
EchoNet-Dynamicデータセットでは、MTGLモデルは最先端の分類とセグメンテーション性能を達成する。
この研究は、GLパラダイムが複雑な医用画像解析のための高精度、効率的、解釈可能なソリューションを提供できることを示した。
論文 参考訳(メタデータ) (2026-01-27T16:04:42Z) - DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs [54.8829900010621]
MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。
これらのギャップに対処するための包括的なフレームワークを提示します。
まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。
第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
論文 参考訳(メタデータ) (2026-01-05T07:55:36Z) - OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction [2.904892426557913]
大規模言語モデル (LLM) は, バイオメディカルNLPにおいて高い性能を示した。
本稿では,自己回帰型LPMと結果予測のための臨床推論を整合させる,統合型マルチタスク学習フレームワークを提案する。
マルチタスク・クリニカル・モデリングにおける推論・アライメントの重要性について検討した。
論文 参考訳(メタデータ) (2025-10-20T13:35:12Z) - Conformal Lesion Segmentation for 3D Medical Images [82.92159832699583]
本稿では,データ駆動しきい値の校正をコンフォーマル化することで,テスト時間FNRが目標許容値以下であることを保証する,リスク制約付きフレームワークを提案する。
5つのバックボーンモデルにまたがる6つの3D-LSデータセット上でのCLSの統計的健全性と予測性能を検証し,臨床実践におけるリスク認識セグメンテーションの展開に関する実用的な知見を得た。
論文 参考訳(メタデータ) (2025-10-19T08:21:00Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - A Quad-Step Approach to Uncertainty-Aware Deep Learning for Skin Cancer Classification [13.993637404760355]
ディープラーニングモデルは、皮膚がんの分類を自動化することを約束している。
しかし、データ不足と不確実性に対する認識が限られているため、課題は残る。
本研究では,HAM10000データセットを用いたDLベースの皮膚病変分類の包括的評価を行った。
論文 参考訳(メタデータ) (2025-06-12T02:29:16Z) - SkinGEN: an Explainable Dermatology Diagnosis-to-Generation Framework with Interactive Vision-Language Models [54.32264601568605]
SkinGENは、VLMが提供する診断結果から参照デモを生成する、診断から生成までのフレームワークである。
システム性能と説明可能性の両方を評価するために,32人の参加者によるユーザスタディを実施している。
その結果、SkinGENはVLM予測に対するユーザの理解を著しく改善し、診断プロセスへの信頼を高めることが示されている。
論文 参考訳(メタデータ) (2024-04-23T05:36:33Z) - Successive Subspace Learning for Cardiac Disease Classification with
Two-phase Deformation Fields from Cine MRI [36.044984400761535]
本研究は,CVD分類のための軽量な逐次サブスペース学習フレームワークを提案する。
解釈可能なフィードフォワードデザインに基づいており、心房と組み合わせている。
3D CNNベースのアプローチと比較して、我々のフレームワークは140$times$より少ないパラメータで優れた分類性能を実現する。
論文 参考訳(メタデータ) (2023-01-21T15:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。