論文の概要: DALPHIN: Benchmarking Digital Pathology AI Copilots Against Pathologists on an Open Multicentric Dataset
- arxiv url: http://arxiv.org/abs/2605.03544v1
- Date: Tue, 05 May 2026 09:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.865659
- Title: DALPHIN: Benchmarking Digital Pathology AI Copilots Against Pathologists on an Open Multicentric Dataset
- Title(参考訳): DALPHIN: オープンな多中心データセット上の病理学者に対するデジタル病理AIコパイロットのベンチマーク
- Authors: Carlijn Lems, Sander Moonemans, Natálie Klubíčková, Biagio Brattoli, Taebum Lee, Seokhwi Kim, Veronica Vilaplana, Laura Pons, Sapir Hochman, Mauricio Eduardo Suárez-Franck, Pedro Luis Fernandez, Julius Drachneris, Donatas Petroska, Renaldas Augulis, Arvydas Laurinavicius, Domingos Oliveira, Diana Montezuma, Anouk B. Bouwmeester, Dominique van Midden, Anne-Marie Vos, Shoko Vos, Jolique van Ipenburg, Maschenka Balkenhol, Koen Winkler, Iris Nagtegaal, Konnie Hebeda, Uta Flucke, Katrien Grünberg, Josef Skopal, Brinder S. Chohan, Jordi Temprana-Salvador, Enrico Munari, Luca Cima, Giulia Querzoli, Yosamin Gonzalez Belisario, Jaeike W. Faber, Geert J. L. H. van Leenders, Jan H. von der Thüsen, Lodewijk A. A. Brosens, Ronald R. de Krijger, Pieter Wesseling, Sandrine Florquin, Mateusz Maniewski, Adam Kowalewski, Robert Barna, Dina Tiniakos, Joan Lop Gros, Rogier Donders, Jake S. F. Maurits, Ming Yang Lu, Chengkuan Chen, Faisal Mahmood, Jeroen van der Laak, Nadieh Khalili, Frédérique Meeuwsen, Francesco Ciompi,
- Abstract要約: DALPHINは、病理AIコパイロのための最初の多中心オープンベンチマークである。
300件の症例から1236枚の画像が作成され、130件の稀な診断、6か国、14の亜種にまたがっている。
本稿では,2つの汎用(GPT-5,Gemini 2.5 Pro)と1つの病理特異的コピロ(PathChat+)について,逐次および独立回答生成のための結果について報告する。
- 参考スコア(独自算出の注目度): 4.391315600415787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models with visual question answering capabilities for digital pathology are emerging. Such unprecedented technology requires independent benchmarking to assess its potential in assisting pathologists in routine diagnostics. We created DALPHIN, the first multicentric open benchmark for pathology AI copilots, comprising 1236 images from 300 cases, spanning 130 rare to common diagnoses, 6 countries, and 14 subspecialties. The DALPHIN design and dataset are introduced alongside a human performance benchmark of 31 pathologists from 10 countries with varying expertise. We report results for two general-purpose (GPT-5, Gemini 2.5 Pro) and one pathology-specific copilot (PathChat+) for sequential and independent answer generation. We observed no statistically significant difference from expert-level performance in four of six tasks for PathChat, 2/6 tasks for Gemini, and 1/6 tasks for GPT. DALPHIN is publicly released with sequestered, indirectly accessible ground truth to foster robust and enduring benchmarking. Data, methods, and the evaluation platform are accessible through dalphin.grand-challenge.org.
- Abstract(参考訳): デジタル病理のための視覚的質問応答機能を備えた基礎モデルが登場している。
このような前例のない技術は、定期的な診断において病理医を支援する可能性を評価するために、独立したベンチマークを必要とする。
DALPHINは、300の症例から1236の画像で構成され、130の稀な診断から一般的な診断、6の国、14の亜種にまたがる。
DALPHINの設計とデータセットは、さまざまな専門知識を持つ10カ国の病理学者31人の人間パフォーマンスベンチマークとともに導入された。
本稿では,2つの汎用(GPT-5,Gemini 2.5 Pro)と1つの病理特異的コピロ(PathChat+)について,逐次および独立回答生成のための結果について報告する。
また,PathChatの4つのタスク,Geminiの2/6タスク,GPTの1/6タスクにおいて,専門家レベルのパフォーマンスと統計的に有意な差は認められなかった。
DALPHINは、堅牢で永続的なベンチマークを促進するために、シークエンサーで間接的にアクセス可能な土台真理で公開されている。
データ、メソッド、評価プラットフォームはdalphin.grand-challenge.orgを通じてアクセスすることができる。
関連論文リスト
- Radiology's Last Exam (RadLE): Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology [2.626353375402704]
大規模言語モデル(LLM)や視覚言語モデル(VLM)といった一般的なマルチモーダルAIシステムは、臨床医や患者からもアクセスされるようになっている。
複数の画像モダリティにまたがる50の専門レベルの「スポット診断」のベンチマークを作成した。
我々は,フロンティアAIモデルの性能を,ボード認定放射線科医や放射線学研修生に対して評価した。
論文 参考訳(メタデータ) (2025-09-29T22:31:20Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - ReXVQA: A Large-scale Visual Question Answering Benchmark for Generalist Chest X-ray Understanding [3.5568372183159203]
ReXVQAは胸部X線検査における視覚的質問応答(VQA)の最大かつ最も包括的なベンチマークである。
約696,000の質問と、トレーニング、検証、テストセットにわたる16万の胸部X線研究のペアで構成されている。
我々は,MedGemma-4B-it,Qwen2.5-VL,Janus-Pro-7B,Eagle2-9Bを含む8つの最先端マルチモーダル言語モデルを評価する。
論文 参考訳(メタデータ) (2025-06-04T18:11:59Z) - PaPaGei: Open Foundation Models for Optical Physiological Signals [8.78925327256804]
光胸腺撮影は生体信号と心臓血管の健康をモニタリングする主要な非侵襲的手法である。
PPG信号に基づいて訓練された機械学習モデルは、タスク固有であり、一般化に苦慮する傾向がある。
PPG信号のための最初のオープン基盤モデルPaPaGeiを提案する。
論文 参考訳(メタデータ) (2024-10-27T18:18:06Z) - AI Workflow, External Validation, and Development in Eye Disease Diagnosis [5.940140611616894]
AIは診断精度が保証されるが、臨床および多様な集団の検証が不十分なため、現実の応用問題に直面している。
本研究は、年齢関連黄斑変性(AMD)診断と分類重症度に関するケーススタディを通じて、医療用AIの下流アカウンタビリティのギャップに対処する。
論文 参考訳(メタデータ) (2024-09-23T15:01:09Z) - Capabilities of Gemini Models in Medicine [100.60391771032887]
医療専門のマルチモーダルモデルであるMed-Geminiを紹介する。
メドジェニーニを14の医療ベンチマークで評価し,その内10に新たな最先端(SoTA)性能を確立した。
我々の結果は、Med-Geminiの可能性を示唆する証拠を提供するが、より厳密な評価は実世界の展開に先立って重要である。
論文 参考訳(メタデータ) (2024-04-29T04:11:28Z) - Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case
Study in Medicine [89.46836590149883]
本研究は, GPT-4の医学的課題評価における能力について, 専門訓練の欠如による先行研究に基づくものである。
イノベーションを促進することで、より深い専門能力が解放され、GPT-4が医学ベンチマークの先行結果に容易に勝っていることが分かる。
Medpromptを使用すると、GPT-4はMultiMedQAスイートのベンチマークデータセットの9つすべてに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-28T03:16:12Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。