論文の概要: MAKE: Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment
- arxiv url: http://arxiv.org/abs/2505.09372v1
- Date: Wed, 14 May 2025 13:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.470477
- Title: MAKE: Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment
- Title(参考訳): MAKE:ゼロショット皮膚科学評価のための多視点知識強化ビジョンランゲージプレトレーニング
- Authors: Siyuan Yan, Xieji Li, Ming Hu, Yiwen Jiang, Zhen Yu, Zongyuan Ge,
- Abstract要約: MAKEはゼロショット皮膚科学タスクのための視覚言語事前学習フレームワークである。
臨床物語を知識に富んだサブテキストに分解する。
臨床上の意義に基づいて、異なるサブカプセルを優先順位付けする。
- 参考スコア(独自算出の注目度): 12.665019147690975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dermatological diagnosis represents a complex multimodal challenge that requires integrating visual features with specialized clinical knowledge. While vision-language pretraining (VLP) has advanced medical AI, its effectiveness in dermatology is limited by text length constraints and the lack of structured texts. In this paper, we introduce MAKE, a Multi-Aspect Knowledge-Enhanced vision-language pretraining framework for zero-shot dermatological tasks. Recognizing that comprehensive dermatological descriptions require multiple knowledge aspects that exceed standard text constraints, our framework introduces: (1) a multi-aspect contrastive learning strategy that decomposes clinical narratives into knowledge-enhanced sub-texts through large language models, (2) a fine-grained alignment mechanism that connects subcaptions with diagnostically relevant image features, and (3) a diagnosis-guided weighting scheme that adaptively prioritizes different sub-captions based on clinical significance prior. Through pretraining on 403,563 dermatological image-text pairs collected from education resources, MAKE significantly outperforms state-of-the-art VLP models on eight datasets across zero-shot skin disease classification, concept annotation, and cross-modal retrieval tasks. Our code will be made publicly available at https: //github.com/SiyuanYan1/MAKE.
- Abstract(参考訳): 皮膚科診断は、視覚的特徴と専門的な臨床知識を統合することを必要とする複雑なマルチモーダル課題である。
視覚言語プレトレーニング(VLP)は高度な医療用AIを持つが、皮膚科におけるその効果は、テキストの長さの制約と構造化されたテキストの欠如によって制限される。
本稿では,ゼロショット皮膚科学タスクのための多視点知識強化型視覚言語事前学習フレームワークであるMAKEを紹介する。
包括的皮膚科的記述には, 標準的なテキスト制約を超える複数の知識的側面が必要であることを認識し, 1) 臨床物語を大規模言語モデルを通して知識強化サブテキストに分解する多視点コントラスト学習戦略, (2) 診断に関連のある画像特徴とサブキャプションを接続するきめ細かいアライメント機構, (3) 臨床上の意義に基づいて異なるサブキャプションを適応的に優先順位付けする診断誘導重み付け手法を導入する。
教育資源から収集された403,563の皮膚学的な画像テキストペアの事前トレーニングを通じて、MAKEはゼロショット皮膚疾患分類、概念アノテーション、およびクロスモーダル検索タスクの8つのデータセットにおいて、最先端のVLPモデルよりも大幅に優れている。
私たちのコードはhttps: //github.com/SiyuanYan1/MAKEで公開されます。
関連論文リスト
- Derm1M: A Million-scale Vision-Language Dataset Aligned with Clinical Ontology Knowledge for Dermatology [20.650401805716744]
本稿では,1029,761個の画像テキストペアからなる皮膚科における最初の大規模視覚言語データセットであるDerm1Mを提案する。
AI研究と臨床応用の進展におけるDerm1Mの可能性を示すために、我々はこのデータセット上で一連のCLIPライクなモデル(DermLIP)を事前訓練した。
論文 参考訳(メタデータ) (2025-03-19T05:30:01Z) - An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training [40.16314726875265]
ConceptCLIPは、最先端の診断精度を達成する最初の説明可能なバイオメディカル基礎モデルである。
本研究では,グローバルな画像テキスト表現と細粒度領域概念関連を同時に学習する,新しいデュアルアライメントアプローチにより,概念CLIPを開発する。
論文 参考訳(メタデータ) (2025-01-26T16:07:11Z) - SkinGEN: an Explainable Dermatology Diagnosis-to-Generation Framework with Interactive Vision-Language Models [54.32264601568605]
SkinGENは、VLMが提供する診断結果から参照デモを生成する、診断から生成までのフレームワークである。
システム性能と説明可能性の両方を評価するために,32人の参加者によるユーザスタディを実施している。
その結果、SkinGENはVLM予測に対するユーザの理解を著しく改善し、診断プロセスへの信頼を高めることが示されている。
論文 参考訳(メタデータ) (2024-04-23T05:36:33Z) - Knowledge-enhanced Visual-Language Pretraining for Computational Pathology [68.6831438330526]
本稿では,公共資源から収集した大規模画像テキストペアを利用した視覚的表現学習の課題について考察する。
ヒト32組織から病理診断を必要とする4,718の疾患に対して50,470個の情報属性からなる病理知識ツリーをキュレートする。
論文 参考訳(メタデータ) (2024-04-15T17:11:25Z) - CLIP in Medical Imaging: A Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
CLIPの使用は最近、医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z) - IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training [15.04212780946932]
階層的視覚言語アライメントを用いた医療報告から構造情報を学習するための新しいフレームワークImitateを提案する。
このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
論文 参考訳(メタデータ) (2023-10-11T10:12:43Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。