論文の概要: Disease-informed Adaptation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.15728v1
- Date: Fri, 24 May 2024 17:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:01:17.404032
- Title: Disease-informed Adaptation of Vision-Language Models
- Title(参考訳): 視覚言語モデルの病的インフォームド適応
- Authors: Jiajin Zhang, Ge Wang, Mannudeep K. Kalra, Pingkun Yan,
- Abstract要約: 本稿では,医用画像解析におけるVLMを用いた伝達学習の可能性について検討する。
VLMの効果的な適応は、疾患概念のニュアンス表現学習に影響を及ぼすと論じている。
本稿では,新しい病原体学習フレームワークにおいて,病原体によるコンテキストプロンプトを導入する。
- 参考スコア(独自算出の注目度): 14.081146704890745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In medical image analysis, the expertise scarcity and the high cost of data annotation limits the development of large artificial intelligence models. This paper investigates the potential of transfer learning with pre-trained vision-language models (VLMs) in this domain. Currently, VLMs still struggle to transfer to the underrepresented diseases with minimal presence and new diseases entirely absent from the pretraining dataset. We argue that effective adaptation of VLMs hinges on the nuanced representation learning of disease concepts. By capitalizing on the joint visual-linguistic capabilities of VLMs, we introduce disease-informed contextual prompting in a novel disease prototype learning framework. This approach enables VLMs to grasp the concepts of new disease effectively and efficiently, even with limited data. Extensive experiments across multiple image modalities showcase notable enhancements in performance compared to existing techniques.
- Abstract(参考訳): 医用画像解析では、専門知識の不足と高コストなデータアノテーションにより、大規模な人工知能モデルの開発が制限される。
本稿では,この領域における事前学習型視覚言語モデル(VLM)を用いた伝達学習の可能性について検討する。
現在、VLMは、最小限の存在と、事前訓練データセットから完全に欠落した新しい疾患で、表現不足の疾患への移行に苦慮している。
VLMの効果的な適応は、疾患概念のニュアンス表現学習に影響を及ぼすと論じている。
VLMの協調視覚言語機能を活用することで,新しい病原体学習フレームワークにおいて,疾患情報を用いたコンテキストプロンプトを導入する。
このアプローチにより、VLMは、限られたデータであっても、新しい病気の概念を効果的に、効率的に把握することができる。
複数の画像モダリティにわたる大規模な実験では、既存の技術と比較して、パフォーマンスが顕著に向上した。
関連論文リスト
- Advancing Brain Imaging Analysis Step-by-step via Progressive Self-paced Learning [0.5840945370755134]
適応型・進行型ペーシング・蒸留機構を応用したPSPD(Progressive Self-Paced Distillation)フレームワークを提案する。
我々は、アルツハイマー病神経画像イニシアチブ(ADNI)データセットを用いて、様々な畳み込みニューラルネットワークにおけるPSPDの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2024-07-23T02:26:04Z) - Knowledge-grounded Adaptation Strategy for Vision-language Models: Building Unique Case-set for Screening Mammograms for Residents Training [5.819704618007536]
自然画像とテキストペアに事前訓練された視覚言語モデル(VLM)は、医学的文脈に適用した場合、大きな障壁となる。
本稿では, 選択的サンプリング法と強陰性マイニング法を用いて, VLMを医療領域に適応させるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T04:04:36Z) - Mitigating Object Hallucination in Large Vision-Language Models via
Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。
私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。
MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Transfer learning and Local interpretable model agnostic based visual
approach in Monkeypox Disease Detection and Classification: A Deep Learning
insights [0.0]
近年のサルポックス病は、世界がまだコロナウイルス病2019(COVID-19)と戦っているときに、世界的なパンデミックの脅威となる。
我々は、VGG16、InceptionResNetV2、ResNet50、ResNet101、MobileNetV2、VGG19を用いたトランスファー学習アプローチの6つの異なるディープラーニングモデルの修正とテストを行った。
予備計算の結果,改良型InceptionResNetV2モデルとMobileNetV2モデルは,93%から99%の精度で高い性能を示した。
論文 参考訳(メタデータ) (2022-11-01T18:07:34Z) - Medical Image Understanding with Pretrained Vision Language Models: A
Comprehensive Study [8.547751745702156]
我々は、事前学習された視覚言語モデル(VLM)から知識を引き出すための、よく設計された医療プロンプトが鍵であることを示している。
医用プロンプトの自動生成のための3つのアプローチを開発し,専門家レベルの医療知識と画像特異的情報を微粒な接地プロンプトに注入する。
論文 参考訳(メタデータ) (2022-09-30T15:06:13Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。