論文の概要: Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language
- arxiv url: http://arxiv.org/abs/2603.02790v1
- Date: Tue, 03 Mar 2026 09:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.733512
- Title: Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language
- Title(参考訳): コンピュータ病理・放射線学・自然言語におけるイメージングのための統一ベンチマークUNICORNの設計
- Authors: Michelle Stegeman, Lena Philipp, Fennie van der Graaf, Marina D'Amato, Clément Grisi, Luc Builtjes, Joeran S. Bosma, Judith Lefkes, Rianne A. Weber, James A. Meakin, Thomas Koopman, Anne Mickan, Mathias Prokop, Ewoud J. Smit, Geert Litjens, Jeroen van der Laak, Bram van Ginneken, Maarten de Rooij, Henkjan Huisman, Colin Jacobs, Francesco Ciompi, Alessa Hering,
- Abstract要約: UNICORNは、統一されたプロトコルの下で医療基盤モデルを体系的に評価するために設計されたベンチマークである。
このベンチマークには、2,400人以上の患者からのデータが含まれており、そのうち3,700人以上が視力検査を受け、8か国17の機関から収集された2,400人以上の臨床報告が含まれている。
マルチタスク、マルチモダリティアセスメントの標準化により、UNICORNは医療基盤モデルの再現可能なベンチマークの基礎を確立する。
- 参考スコア(独自算出の注目度): 4.231766782545193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical foundation models show promise to learn broadly generalizable features from large, diverse datasets. This could be the base for reliable cross-modality generalization and rapid adaptation to new, task-specific goals, with only a few task-specific examples. Yet, evidence for this is limited by the lack of public, standardized, and reproducible evaluation frameworks, as existing public benchmarks are often fragmented across task-, organ-, or modality-specific settings, limiting assessment of cross-task generalization. We introduce UNICORN, a public benchmark designed to systematically evaluate medical foundation models under a unified protocol. To isolate representation quality, we built the benchmark on a novel two-step framework that decouples model inference from task-specific evaluation based on standardized few-shot adaptation. As a central design choice, we constructed indirectly accessible sequestered test sets derived from clinically relevant cohorts, along with standardized evaluation code and a submission interface on an open benchmarking platform. Performance is aggregated into a single UNICORN Score, a new metric that we introduce to support direct comparison of foundation models across diverse medical domains, modalities, and task types. The UNICORN test dataset includes data from more than 2,400 patients, including over 3,700 vision cases and over 2,400 clinical reports collected from 17 institutions across eight countries. The benchmark spans eight anatomical regions and four imaging modalities. Both task-specific and aggregated leaderboards enable accessible, standardized, and reproducible evaluation. By standardizing multi-task, multi-modality assessment, UNICORN establishes a foundation for reproducible benchmarking of medical foundation models. Data, baseline methods, and the evaluation platform are publicly available via unicorn.grand-challenge.org.
- Abstract(参考訳): 医療基盤モデルは、大規模で多様なデータセットから広く一般化可能な特徴を学ぶことを約束する。
これは、信頼性のあるクロスモダリティの一般化と、タスク固有の新しい目標への迅速な適応の基盤となり得る。
しかし、既存の公開ベンチマークはタスク、オルガン、モダリティ固有の設定で断片化され、クロスタスクの一般化の評価が制限されるため、この証拠は公開、標準化、再現可能な評価フレームワークの欠如によって制限される。
UNICORNは、統一されたプロトコルの下で医療基盤モデルを体系的に評価するように設計された公開ベンチマークである。
表現品質を分離するために,標準化された少数ショット適応に基づくタスク固有評価からモデル推論を分離する新しい2段階フレームワーク上にベンチマークを構築した。
設計選択の中心として,臨床関連コホートから間接的にアクセス可能なシークエンステストセットと,標準化された評価コード,オープンなベンチマークプラットフォーム上でのサブミットインターフェースを構築した。
UNICORN Scoreは、様々な医療領域、モダリティ、タスクタイプにわたる基礎モデルの直接比較をサポートするための新しい指標である。
UNICORNのテストデータセットには、2,400人以上の患者のデータが含まれている。
ベンチマークは8つの解剖学的領域と4つの画像モダリティにまたがる。
タスク固有のものと集約されたリーダボードの両方が、アクセス可能で、標準化され、再現可能な評価を可能にする。
マルチタスク、マルチモダリティアセスメントの標準化により、UNICORNは医療基盤モデルの再現可能なベンチマークの基礎を確立する。
データ、ベースラインメソッド、評価プラットフォームはunicorn.grand-challenge.orgで公開されている。
関連論文リスト
- CrossMed: A Multimodal Cross-Task Benchmark for Compositional Generalization in Medical Imaging [2.9857131541387827]
医用視覚言語モデルの合成一般化(CG)を評価するベンチマークであるCrossMedを紹介する。
4つの公開データセットを統一的な視覚的質問応答(VQA)フォーマットに再構成し、20,200の複数選択QAインスタンスを生成する。
関連する分割で訓練されたモデルは83.2%の分類精度と0.75のセグメンテーションcIoUを実現し、非関連条件とゼロオーバーラップ条件では性能が著しく低下する。
論文 参考訳(メタデータ) (2025-11-14T07:41:01Z) - Towards Domain Specification of Embedding Models in Medicine [1.0713888959520208]
MTEB(Massive Text Embedding Benchmark)に基づく分類,クラスタリング,ペア分類,検索を対象とする51タスクの総合ベンチマークスイートを提案する。
以上の結果から,本手法はロバストな評価枠組みを確立し,各タスクにおける工芸品の代替品の状態を常に上回り,組込み性能が向上することを示した。
論文 参考訳(メタデータ) (2025-07-25T16:15:00Z) - Benchmarking Foundation Models with Multimodal Public Electronic Health Records [24.527782376051693]
本稿では,基礎モデルの性能,公平性,解釈可能性を評価するベンチマークを提案する。
我々は異種臨床記録を解析可能な形式に調和させる標準化されたデータ処理パイプラインを開発した。
以上の結果から,複数のデータモダリティを組み込むことで,バイアスを伴わずに予測性能が一貫した改善がもたらされることが示唆された。
論文 参考訳(メタデータ) (2025-07-20T05:08:28Z) - Named Clinical Entity Recognition Benchmark [2.9332007863461893]
本報告では, 名前付き臨床エンティティ認識ベンチマークを紹介する。
臨床物語から構造化された情報を抽出する重要な自然言語処理(NLP)タスクに対処する。
リーダーボードは多様な言語モデルを評価するための標準化されたプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-10-07T14:00:18Z) - Repurposing Foundation Model for Generalizable Medical Time Series Classification [16.21546283978257]
FORMEDは、バックボーン基盤モデルを再利用して、目に見えないデータセット上で高度に一般化可能なMedTS分類を可能にするフレームワークである。
我々は,5種類のMedTSデータセットを用いて,11のタスク特化モデル (TSM) と4のタスク特化適応 (TSA) 手法のベンチマークを行った。
以上の結果から,F1スコア(ADFTDデータセット上で)を最大35%向上させることができた。
論文 参考訳(メタデータ) (2024-10-03T23:50:04Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。
We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文 参考訳(メタデータ) (2022-04-28T08:35:26Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。