Fugu-MT 論文翻訳(概要): MAKE: Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment

論文の概要: MAKE: Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment

arxiv url: http://arxiv.org/abs/2505.09372v1
Date: Wed, 14 May 2025 13:24:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-15 21:44:09.470477
Title: MAKE: Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment
Title（参考訳）: MAKE:ゼロショット皮膚科学評価のための多視点知識強化ビジョンランゲージプレトレーニング
Authors: Siyuan Yan, Xieji Li, Ming Hu, Yiwen Jiang, Zhen Yu, Zongyuan Ge,
Abstract要約: MAKEはゼロショット皮膚科学タスクのための視覚言語事前学習フレームワークである。臨床物語を知識に富んだサブテキストに分解する。臨床上の意義に基づいて、異なるサブカプセルを優先順位付けする。
参考スコア（独自算出の注目度）: 12.665019147690975
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dermatological diagnosis represents a complex multimodal challenge that requires integrating visual features with specialized clinical knowledge. While vision-language pretraining (VLP) has advanced medical AI, its effectiveness in dermatology is limited by text length constraints and the lack of structured texts. In this paper, we introduce MAKE, a Multi-Aspect Knowledge-Enhanced vision-language pretraining framework for zero-shot dermatological tasks. Recognizing that comprehensive dermatological descriptions require multiple knowledge aspects that exceed standard text constraints, our framework introduces: (1) a multi-aspect contrastive learning strategy that decomposes clinical narratives into knowledge-enhanced sub-texts through large language models, (2) a fine-grained alignment mechanism that connects subcaptions with diagnostically relevant image features, and (3) a diagnosis-guided weighting scheme that adaptively prioritizes different sub-captions based on clinical significance prior. Through pretraining on 403,563 dermatological image-text pairs collected from education resources, MAKE significantly outperforms state-of-the-art VLP models on eight datasets across zero-shot skin disease classification, concept annotation, and cross-modal retrieval tasks. Our code will be made publicly available at https: //github.com/SiyuanYan1/MAKE.
Abstract（参考訳）: 皮膚科診断は、視覚的特徴と専門的な臨床知識を統合することを必要とする複雑なマルチモーダル課題である。視覚言語プレトレーニング(VLP)は高度な医療用AIを持つが、皮膚科におけるその効果は、テキストの長さの制約と構造化されたテキストの欠如によって制限される。本稿では,ゼロショット皮膚科学タスクのための多視点知識強化型視覚言語事前学習フレームワークであるMAKEを紹介する。包括的皮膚科的記述には, 標準的なテキスト制約を超える複数の知識的側面が必要であることを認識し, 1) 臨床物語を大規模言語モデルを通して知識強化サブテキストに分解する多視点コントラスト学習戦略, (2) 診断に関連のある画像特徴とサブキャプションを接続するきめ細かいアライメント機構, (3) 臨床上の意義に基づいて異なるサブキャプションを適応的に優先順位付けする診断誘導重み付け手法を導入する。教育資源から収集された403,563の皮膚学的な画像テキストペアの事前トレーニングを通じて、MAKEはゼロショット皮膚疾患分類、概念アノテーション、およびクロスモーダル検索タスクの8つのデータセットにおいて、最先端のVLPモデルよりも大幅に優れている。私たちのコードはhttps: //github.com/SiyuanYan1/MAKEで公開されます。

関連論文リスト

GMAT: Grounded Multi-Agent Clinical Description Generation for Text Encoder in Vision-Language MIL for Whole Slide Image Classification [4.922864692096282]
多重インスタンス学習(MIL)は、全スライド画像(WSI)分類における主要なアプローチである。最近の研究は、医療知識を取り入れたビジョン言語モデル(VLM)をMILパイプラインに導入している。本稿では2つの重要なコントリビューションを持つビジョン言語MILフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-02T09:59:39Z)
PRISM2: Unlocking Multi-Modal General Pathology AI with Clinical Dialogue [2.657193510259712]
PRISM2は、臨床対話を通して訓練された多モードスライドレベルの基礎モデルであり、スケーラブルで一般化可能な病理学AIを実現する。 PRISM2は、70万近い標本(230万WSI)と実際の臨床診断報告を2段階のプロセスで組み合わせて訓練されている。 PRISMやTITANといった従来のスライドレベルのモデルよりも優れており、診断およびバイオマーカー予測タスクにおいて高い性能を発揮する。
論文参考訳（メタデータ） (2025-06-16T03:12:51Z)
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
Derm1M: A Million-scale Vision-Language Dataset Aligned with Clinical Ontology Knowledge for Dermatology [20.650401805716744]
本稿では,1029,761個の画像テキストペアからなる皮膚科における最初の大規模視覚言語データセットであるDerm1Mを提案する。 AI研究と臨床応用の進展におけるDerm1Mの可能性を示すために、我々はこのデータセット上で一連のCLIPライクなモデル(DermLIP)を事前訓練した。
論文参考訳（メタデータ） (2025-03-19T05:30:01Z)
An Explainable Biomedical Foundation Model via Large-Scale Concept-Enhanced Vision-Language Pre-training [40.16314726875265]
ConceptCLIPは、最先端の診断精度を達成する最初の説明可能なバイオメディカル基礎モデルである。本研究では,グローバルな画像テキスト表現と細粒度領域概念関連を同時に学習する,新しいデュアルアライメントアプローチにより,概念CLIPを開発する。
論文参考訳（メタデータ） (2025-01-26T16:07:11Z)
SkinGEN: an Explainable Dermatology Diagnosis-to-Generation Framework with Interactive Vision-Language Models [54.32264601568605]
SkinGENは、VLMが提供する診断結果から参照デモを生成する、診断から生成までのフレームワークである。システム性能と説明可能性の両方を評価するために,32人の参加者によるユーザスタディを実施している。その結果、SkinGENはVLM予測に対するユーザの理解を著しく改善し、診断プロセスへの信頼を高めることが示されている。
論文参考訳（メタデータ） (2024-04-23T05:36:33Z)
Knowledge-enhanced Visual-Language Pretraining for Computational Pathology [68.6831438330526]
本稿では,公共資源から収集した大規模画像テキストペアを利用した視覚的表現学習の課題について考察する。ヒト32組織から病理診断を必要とする4,718の疾患に対して50,470個の情報属性からなる病理知識ツリーをキュレートする。
論文参考訳（メタデータ） (2024-04-15T17:11:25Z)
MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文参考訳（メタデータ） (2024-02-03T05:48:50Z)
CLIP in Medical Imaging: A Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。 CLIPの使用は最近、医療画像領域への関心が高まっている。
論文参考訳（メタデータ） (2023-12-12T15:21:57Z)
IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training [15.04212780946932]
階層的視覚言語アライメントを用いた医療報告から構造情報を学習するための新しいフレームワークImitateを提案する。このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
論文参考訳（メタデータ） (2023-10-11T10:12:43Z)
Robust and Interpretable Medical Image Classifiers via Concept Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文参考訳（メタデータ） (2023-10-04T21:57:09Z)
Align, Reason and Learn: Enhancing Medical Vision-and-Language Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文参考訳（メタデータ） (2022-09-15T08:00:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。