論文の概要: PromptSmooth: Certifying Robustness of Medical Vision-Language Models via Prompt Learning
- arxiv url: http://arxiv.org/abs/2408.16769v1
- Date: Thu, 29 Aug 2024 17:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 12:41:39.453269
- Title: PromptSmooth: Certifying Robustness of Medical Vision-Language Models via Prompt Learning
- Title(参考訳): PromptSmooth: プロンプト学習による医用視覚言語モデルのロバスト性証明
- Authors: Noor Hussein, Fahad Shamshad, Muzammal Naseer, Karthik Nandakumar,
- Abstract要約: 近年の研究では、医療ビジョン言語モデル(Med-VLMs)の敵対的攻撃に対する感受性が強調されている。
本稿では,PmptSmoothを提案し,即時学習の概念を活用することで,Med-VLMの効率よく信頼性の高いロバスト性を実現する。
- 参考スコア(独自算出の注目度): 18.64776777593743
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical vision-language models (Med-VLMs) trained on large datasets of medical image-text pairs and later fine-tuned for specific tasks have emerged as a mainstream paradigm in medical image analysis. However, recent studies have highlighted the susceptibility of these Med-VLMs to adversarial attacks, raising concerns about their safety and robustness. Randomized smoothing is a well-known technique for turning any classifier into a model that is certifiably robust to adversarial perturbations. However, this approach requires retraining the Med-VLM-based classifier so that it classifies well under Gaussian noise, which is often infeasible in practice. In this paper, we propose a novel framework called PromptSmooth to achieve efficient certified robustness of Med-VLMs by leveraging the concept of prompt learning. Given any pre-trained Med-VLM, PromptSmooth adapts it to handle Gaussian noise by learning textual prompts in a zero-shot or few-shot manner, achieving a delicate balance between accuracy and robustness, while minimizing the computational overhead. Moreover, PromptSmooth requires only a single model to handle multiple noise levels, which substantially reduces the computational cost compared to traditional methods that rely on training a separate model for each noise level. Comprehensive experiments based on three Med-VLMs and across six downstream datasets of various imaging modalities demonstrate the efficacy of PromptSmooth. Our code and models are available at https://github.com/nhussein/promptsmooth.
- Abstract(参考訳): 医用視覚言語モデル(Med-VLM)は、医療用画像テキストペアの大規模なデータセットに基づいて訓練され、後に特定のタスクのために微調整された。
しかし、近年の研究は、これらのMed-VLMの敵攻撃に対する感受性を強調し、それらの安全性と堅牢性に対する懸念を提起している。
ランダムな平滑化は、任意の分類器を敵の摂動に対して確実に堅牢なモデルに変換するためのよく知られた手法である。
しかし、このアプローチはメド・VLMベースの分類器を再訓練し、ガウス雑音の下で適切に分類する必要があるが、実際は不可能であることが多い。
本稿では,PmptSmooth という新しいフレームワークを提案する。
事前訓練されたMed-VLMが与えられた場合、PromptSmoothはゼロショットまたは少数ショットでテキストプロンプトを学習し、精度と頑健さの微妙なバランスを保ちながら、計算オーバーヘッドを最小限に抑えながらガウスノイズを扱うように適応する。
さらに、PromptSmoothは複数のノイズレベルを扱うために1つのモデルしか必要としないため、各ノイズレベルごとに個別のモデルをトレーニングすることに依存する従来の方法に比べて、計算コストを大幅に削減できる。
3つのMed-VLMと6つの下流データセットに基づく総合的な実験により、PromptSmoothの有効性が示された。
私たちのコードとモデルはhttps://github.com/nhussein/promptsmooth.comで公開されています。
関連論文リスト
- Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training [9.023648972811458]
RagVLは、知識強化されたリグレードとノイズ注入トレーニングを備えた、新しいフレームワークである。
我々はMLLMに簡単な命令テンプレートを付与し、そのランク付け能力を誘導する。
例えば、データとトークンレベルでのトレーニング中に視覚ノイズを注入して、ジェネレータの堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-31T08:43:17Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Addressing Class Imbalance in Semi-supervised Image Segmentation: A
Study on Cardiac MRI [28.656853454251426]
特定のクラスに対する不十分なトレーニングは、生成された擬似ラベルにより多くのノイズを導入し、全体的な学習に影響を与える可能性がある。
授業中にクラスワイドのパフォーマンスを記録する信頼度アレーの維持について提案する。
これらの信頼度スコアのファジィ融合は、各サンプルにおける個々の信頼度指標を適応的に優先順位付けするために提案される。
提案手法は, 動的重み付けを施した低性能クラスをすべて考慮し, トレーニング中のノイズの大半を除去しようとするものである。
論文 参考訳(メタデータ) (2022-08-31T21:25:00Z) - About Explicit Variance Minimization: Training Neural Networks for
Medical Imaging With Limited Data Annotations [2.3204178451683264]
VAT(Variance Aware Training)法は、モデル損失関数に分散誤差を導入することにより、この特性を利用する。
多様な領域から得られた3つの医用画像データセットと様々な学習目標に対するVATの有効性を検証した。
論文 参考訳(メタデータ) (2021-05-28T21:34:04Z) - SSLM: Self-Supervised Learning for Medical Diagnosis from MR Video [19.5917119072985]
本稿では,磁気共鳴(MR)ビデオクリップから空間解剖学的表現を学習するための自己教師型学習手法を提案する。
提案する前文モデルは意味のある空間的文脈不変表現を学習する。
異なる実験は、プリテキストモデルによって学習された特徴が下流タスクで説明可能なパフォーマンスを提供することを示している。
論文 参考訳(メタデータ) (2021-04-21T12:01:49Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。