論文の概要: DermaVQA-DAS: Dermatology Assessment Schema (DAS) & Datasets for Closed-Ended Question Answering & Segmentation in Patient-Generated Dermatology Images
- arxiv url: http://arxiv.org/abs/2512.24340v1
- Date: Tue, 30 Dec 2025 16:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.43358
- Title: DermaVQA-DAS: Dermatology Assessment Schema (DAS) & Datasets for Closed-Ended Question Answering & Segmentation in Patient-Generated Dermatology Images
- Title(参考訳): DermaVQA-DAS:Dermatology Assessment Schema (DAS) and Datasets for Close-Ended Question Answering and Segmentation in patient-Generated Dermatology Images
- Authors: Wen-wai Yim, Yujuan Fu, Asma Ben Abacha, Meliha Yetisgen, Noel Codella, Roberto Andres Novoa, Josep Malvehy,
- Abstract要約: DermaVQA-DASはDrmaVQAデータセットの拡張であり、クローズドエンド質問応答(QA)と皮膚病巣のセグメンテーションをサポートする。
DASには、36のハイレベルと27のきめ細かい評価質問があり、英語と中国語で複数の選択肢がある。
閉じたQAでは、全体的な性能はモデル全体で強く、平均的な精度は0.729から0.798である。
- 参考スコア(独自算出の注目度): 11.643416771577174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in dermatological image analysis have been driven by large-scale annotated datasets; however, most existing benchmarks focus on dermatoscopic images and lack patient-authored queries and clinical context, limiting their applicability to patient-centered care. To address this gap, we introduce DermaVQA-DAS, an extension of the DermaVQA dataset that supports two complementary tasks: closed-ended question answering (QA) and dermatological lesion segmentation. Central to this work is the Dermatology Assessment Schema (DAS), a novel expert-developed framework that systematically captures clinically meaningful dermatological features in a structured and standardized form. DAS comprises 36 high-level and 27 fine-grained assessment questions, with multiple-choice options in English and Chinese. Leveraging DAS, we provide expert-annotated datasets for both closed QA and segmentation and benchmark state-of-the-art multimodal models. For segmentation, we evaluate multiple prompting strategies and show that prompt design impacts performance: the default prompt achieves the best results under Mean-of-Max and Mean-of-Mean evaluation aggregation schemes, while an augmented prompt incorporating both patient query title and content yields the highest performance under majority-vote-based microscore evaluation, achieving a Jaccard index of 0.395 and a Dice score of 0.566 with BiomedParse. For closed-ended QA, overall performance is strong across models, with average accuracies ranging from 0.729 to 0.798; o3 achieves the best overall accuracy (0.798), closely followed by GPT-4.1 (0.796), while Gemini-1.5-Pro shows competitive performance within the Gemini family (0.783). We publicly release DermaVQA-DAS, the DAS schema, and evaluation protocols to support and accelerate future research in patient-centered dermatological vision-language modeling (https://osf.io/72rp3).
- Abstract(参考訳): 皮膚画像解析の最近の進歩は、大規模な注釈付きデータセットによって推進されているが、既存のベンチマークでは、皮膚内視鏡画像に焦点が当てられており、患者認可のクエリや臨床コンテキストが欠如しており、患者中心のケアに適用性に制限されている。
このギャップを解決するために,DermaVQAデータセットの拡張であるDermaVQA-DASを導入する。
ダーマトロジー・アセスメント・スキーマ(Dermatology Assessment Schema、DAS)は、構造化され標準化された形で臨床的に意味のある皮膚学の特徴を体系的にキャプチャーする、新しい専門家が開発したフレームワークである。
DASには、36のハイレベルと27のきめ細かい評価質問があり、英語と中国語で複数の選択肢がある。
DASを活用することで、クローズドQAとセグメンテーションの両方のためのエキスパートアノテーション付きデータセットと、最先端マルチモーダルモデルのベンチマークを提供する。
既定のプロンプトはMean-of-MaxおよびMean-of-Mean評価アグリゲーションスキームで最高の結果を得る一方、患者問合せタイトルとコンテンツの両方を組み込んだ拡張プロンプトは、多数投票によるマイクロスコア評価で最高のパフォーマンスを示し、Jaccardインデックスは0.395、Diceスコアは0.566である。
クローズドエンドQAでは、平均的な精度は0.729から0.798、o3は最高精度(0.798)、GPT-4.1(0.796)、Gemini-1.5-Proはジェミニファミリー内の競争性能(0.783)である。
我々は,患者中心の視覚言語モデリング(https://osf.io/72rp3)における将来的な研究を支援するために,DermaVQA-DAS,DASスキーマ,評価プロトコルを公開している。
関連論文リスト
- Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - DermINO: Hybrid Pretraining for a Versatile Dermatology Foundation Model [92.66916452260553]
DermNIOは皮膚科学の多目的基盤モデルである。
自己教師型学習パラダイムを増強する、新しいハイブリッド事前学習フレームワークが組み込まれている。
さまざまなタスクにおいて、最先端のモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-17T00:41:39Z) - Architecting Clinical Collaboration: Multi-Agent Reasoning Systems for Multimodal Medical VQA [1.2744523252873352]
遠隔医療による皮膚科医療は、しばしば個人訪問の豊かな文脈を欠いている。
本研究は,6つの構成にまたがる医用視覚質問応答の視覚言語モデルについて検討した。
論文 参考訳(メタデータ) (2025-07-07T22:31:56Z) - Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの5つの大言語モデル(LLM)の分類性能を評価する。
全てのモデルとタスクの組み合わせに対して、95%の信頼区間を有する精度、リコール、F1スコアを報告する。
論文 参考訳(メタデータ) (2025-03-19T12:51:52Z) - MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning [34.93995619867384]
LLM(Large Language Models)は、既存の医学的質問応答ベンチマークで素晴らしいパフォーマンスを示している。
MedAgentsBenchは、多段階の臨床推論、診断の定式化、および治療計画シナリオを必要とする医学的問題に焦点を当てたベンチマークである。
論文 参考訳(メタデータ) (2025-03-10T15:38:44Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - The Skin Game: Revolutionizing Standards for AI Dermatology Model Comparison [0.6144680854063939]
皮膚画像分類における深層学習アプローチは有望な結果を示しているが、適切な評価を妨げる重要な方法論的課題に直面している。
本稿では、皮膚疾患分類研究における現在の方法論の体系的分析を行い、データ準備、強化戦略、パフォーマンス報告におけるかなりの不整合を明らかにした。
本稿では、厳密なデータ準備、系統的誤り解析、異なる画像タイプのための特別なプロトコルを強調し、モデル開発、評価、臨床展開のための包括的な方法論的勧告を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:15:36Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - MyoPS: A Benchmark of Myocardial Pathology Segmentation Combining
Three-Sequence Cardiac Magnetic Resonance Images [84.02849948202116]
本研究は,MyoPS(MyoPS)の医療画像解析における新たな課題を定義するものである。
myoPSは、MICCAI 2020とともにMyoPSチャレンジで最初に提案された3シーケンスの心臓磁気共鳴(CMR)画像を組み合わせている。
この課題は45対のCMR画像と予め整列されたCMR画像を提供し、アルゴリズムは3つのCMRシーケンスから補完的な情報を結合して病理領域を分割することを可能にする。
論文 参考訳(メタデータ) (2022-01-10T06:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。