論文の概要: DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs
- arxiv url: http://arxiv.org/abs/2601.01868v1
- Date: Mon, 05 Jan 2026 07:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.847872
- Title: DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs
- Title(参考訳): DermoGPT:モルフォロジーを取り巻く皮膚学推論MLLMのオープンウェイトとオープンデータ
- Authors: Jinghan Ru, Siyuan Yan, Yuguo Yin, Yuexian Zou, Zongyuan Ge,
- Abstract要約: MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。
これらのギャップに対処するための包括的なフレームワークを提示します。
まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。
第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
- 参考スコア(独自算出の注目度): 54.8829900010621
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) show promise for medical applications, yet progress in dermatology lags due to limited training data, narrow task coverage, and lack of clinically-grounded supervision that mirrors expert diagnostic workflows. We present a comprehensive framework to address these gaps. First, we introduce DermoInstruct, a large-scale morphology-anchored instruction corpus comprising 211,243 images and 772,675 trajectories across five task formats, capturing the complete diagnostic pipeline from morphological observation and clinical reasoning to final diagnosis. Second, we establish DermoBench, a rigorous benchmark evaluating 11 tasks across four clinical axes: Morphology, Diagnosis, Reasoning, and Fairness, including a challenging subset of 3,600 expert-verified open-ended instances and human performance baselines. Third, we develop DermoGPT, a dermatology reasoning MLLM trained via supervised fine-tuning followed by our Morphologically-Anchored Visual-Inference-Consistent (MAVIC) reinforcement learning objective, which enforces consistency between visual observations and diagnostic conclusions. At inference, we deploy Confidence-Consistency Test-time adaptation (CCT) for robust predictions. Experiments show DermoGPT significantly outperforms 16 representative baselines across all axes, achieving state-of-the-art performance while substantially narrowing the human-AI gap. DermoInstruct, DermoBench and DermoGPT will be made publicly available at https://github.com/mendicant04/DermoGPT upon acceptance.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、専門的な診断ワークフローを反映する臨床現場の監督の欠如により、皮膚学の遅れが進行している。
これらのギャップに対処するための包括的なフレームワークを提示します。
まず,211,243のイメージと72,675のトラジェクトリからなる大規模形態素解析コーパスであるDermo Instructを紹介し,形態学的観察と臨床診断から最終診断までの完全な診断パイプラインを捉えた。
第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークです。
第3にDermoGPTは,視覚観察と診断結果の整合性を示す形態的アンコール型ビジュアル・推論・コンシスタント(MAVIC)強化学習目標を用いて,教師付き微調整により訓練した皮膚学推論MLLMである。
推測では,信頼性-一貫性テスト時適応(CCT)を頑健な予測のために展開する。
実験の結果、DermoGPTは全軸にわたって16の代表的なベースラインを著しく上回り、最先端のパフォーマンスを達成し、人間とAIのギャップを著しく狭めていることがわかった。
DermoInstruct、DermoBench、DermoGPTは受理後、https://github.com/mendicant04/DermoGPTで公開される。
関連論文リスト
- nnMIL: A generalizable multiple instance learning framework for computational pathology [11.640858438464159]
nnMILは、パッチレベルの基礎モデルと堅牢なスライドレベルの臨床推論を結びつける学習フレームワークである。
nnMILは、疾患診断、組織学的サブタイプ、分子バイオマーカー検出、パンガン予後予測において、既存のMIL法よりも一貫して優れていた。
結論として、nnMILは、病理基盤モデルを臨床的に有意義な予測に翻訳するための実用的で一般化可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-11-18T20:56:37Z) - DermINO: Hybrid Pretraining for a Versatile Dermatology Foundation Model [92.66916452260553]
DermNIOは皮膚科学の多目的基盤モデルである。
自己教師型学習パラダイムを増強する、新しいハイブリッド事前学習フレームワークが組み込まれている。
さまざまなタスクにおいて、最先端のモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-17T00:41:39Z) - Benchmarking and Explaining Deep Learning Cortical Lesion MRI Segmentation in Multiple Sclerosis [28.192924379673862]
多発性硬化症(MS)における生体マーカーとしての皮質病変(CL)の出現
本稿では,MRIにおけるCL検出とセグメンテーションの総合ベンチマークを提案する。
医療画像のセグメンテーションのために設計された自己構成のnnU-Netフレームワークを利用し、CL検出の改善に適した適応を提案する。
論文 参考訳(メタデータ) (2025-07-16T09:56:11Z) - PRISM2: Unlocking Multi-Modal General Pathology AI with Clinical Dialogue [2.578328028000588]
PRISM2は,70,000検体-報告ペアのデータに基づいて訓練された多モードスライドレベル基礎モデルである。
PRISM2は、病理形態学的特徴を診断的推論の言語と整合させ、スライドレベルの表現を生成する。
以上の結果から,言語指導による事前学習が,拡張性,臨床的根拠を生かした,一般化可能な病理表現の学習にどのように役立つかが示唆された。
論文 参考訳(メタデータ) (2025-06-16T03:12:51Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - SkinGEN: an Explainable Dermatology Diagnosis-to-Generation Framework with Interactive Vision-Language Models [54.32264601568605]
SkinGENは、VLMが提供する診断結果から参照デモを生成する、診断から生成までのフレームワークである。
システム性能と説明可能性の両方を評価するために,32人の参加者によるユーザスタディを実施している。
その結果、SkinGENはVLM予測に対するユーザの理解を著しく改善し、診断プロセスへの信頼を高めることが示されている。
論文 参考訳(メタデータ) (2024-04-23T05:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。