Fugu-MT 論文翻訳(概要): Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation?

論文の概要: Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation?

arxiv url: http://arxiv.org/abs/2411.03670v1
Date: Wed, 06 Nov 2024 05:09:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.862325
Title: Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation?
Title（参考訳）: Touchstoneベンチマーク: 医療セグメントのためのAIアルゴリズムを評価する正しい方法があるか?
Authors: Pedro R. A. S. Bassi, Wenxuan Li, Yucheng Tang, Fabian Isensee, Zifu Wang, Jieneng Chen, Yu-Cheng Chou, Yannick Kirchhoff, Maximilian Rokuss, Ziyan Huang, Jin Ye, Junjun He, Tassilo Wald, Constantin Ulrich, Michael Baumgartner, Saikat Roy, Klaus H. Maier-Hein, Paul Jaeger, Yiwen Ye, Yutong Xie, Jianpeng Zhang, Ziyang Chen, Yong Xia, Zhaohu Xing, Lei Zhu, Yousef Sadegheih, Afshin Bozorgpour, Pratibha Kumari, Reza Azad, Dorit Merhof, Pengcheng Shi, Ting Ma, Yuxin Du, Fan Bai, Tiejun Huang, Bo Zhao, Haonan Wang, Xiaomeng Li, Hanxue Gu, Haoyu Dong, Jichen Yang, Maciej A. Mazurowski, Saumya Gupta, Linshan Wu, Jiaxin Zhuang, Hao Chen, Holger Roth, Daguang Xu, Matthew B. Blaschko, Sergio Decherchi, Andrea Cavalli, Alan L. Yuille, Zongwei Zhou,
Abstract要約: 9種類の腹部臓器の大規模共同セグメント化ベンチマークであるTouchstoneを報告する。このベンチマークは、世界中の76の病院から5,195回のCTスキャンと、11の病院から5,903回のCTスキャンに基づいています。私たちは19のAIアルゴリズムの発明者14人を招待してアルゴリズムをトレーニングしましたが、私たちのチームは第三者として、3つのテストセットでこれらのアルゴリズムを独立して評価しました。
参考スコア（独自算出の注目度）: 90.30635552818875
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How can we test AI performance? This question seems trivial, but it isn't. Standard benchmarks often have problems such as in-distribution and small-size test sets, oversimplified metrics, unfair comparisons, and short-term outcome pressure. As a consequence, good performance on standard benchmarks does not guarantee success in real-world scenarios. To address these problems, we present Touchstone, a large-scale collaborative segmentation benchmark of 9 types of abdominal organs. This benchmark is based on 5,195 training CT scans from 76 hospitals around the world and 5,903 testing CT scans from 11 additional hospitals. This diverse test set enhances the statistical significance of benchmark results and rigorously evaluates AI algorithms across various out-of-distribution scenarios. We invited 14 inventors of 19 AI algorithms to train their algorithms, while our team, as a third party, independently evaluated these algorithms on three test sets. In addition, we also evaluated pre-existing AI frameworks--which, differing from algorithms, are more flexible and can support different algorithms--including MONAI from NVIDIA, nnU-Net from DKFZ, and numerous other open-source frameworks. We are committed to expanding this benchmark to encourage more innovation of AI algorithms for the medical domain.
Abstract（参考訳）: AIのパフォーマンスをテストするには? この質問はささやかなようだが、そうではない。標準ベンチマークには、分散性や小さなテストセット、過剰に単純化されたメトリクス、不公平な比較、短期的な結果のプレッシャーなどの問題があることが多い。その結果、標準ベンチマークでの優れたパフォーマンスは、現実のシナリオの成功を保証しません。これらの問題に対処するため,9種類の腹部臓器の大規模協調的セグメンテーションベンチマークであるTouchstoneを提案する。このベンチマークは、世界中の76の病院から5,195回のCTスキャンと、11の病院から5,903回のCTスキャンに基づいています。この多様なテストセットは、ベンチマーク結果の統計的重要性を高め、さまざまなアウト・オブ・ディストリビューションシナリオでAIアルゴリズムを厳格に評価する。私たちは19のAIアルゴリズムの発明者14人を招待してアルゴリズムをトレーニングしましたが、私たちのチームは第三者として、3つのテストセットでこれらのアルゴリズムを独立して評価しました。さらに、既存のAIフレームワークも評価しました。アルゴリズムとは違って、より柔軟で、NVIDIAのMONAI、DKFZのnnU-Netなど、さまざまなアルゴリズムをサポートすることができます。私たちはこのベンチマークを拡張して、医療分野におけるAIアルゴリズムのさらなる革新を奨励することを約束しています。

関連論文リスト

Decision Making under Imperfect Recall: Algorithms and Benchmarks [77.12503122836422]
本稿では,不完全-再コール決定問題に対する最初のベンチマークスイートを紹介する。私たちのベンチマークでは、AIシステムのプライバシに関するものなど、さまざまな問題タイプを捉えています。このような問題における一階最適戦略を見つけるために,異なるアルゴリズムの性能を評価する。
論文参考訳（メタデータ） (2026-02-16T23:19:01Z)
How Many Code and Test Cases Are Enough? Evaluating Test Cases Generation from a Binary-Matrix Perspective [51.30005925128432]
LLM(Large Language Models)が自動生成するテストケースの評価は、非常に難しい作業です。既存のベンチマークは高い計算コスト、インフレーションのスコア、稀でクリティカルな欠陥に対する自明なバグに対するバイアスに悩まされている。本稿では,ベンチマーク構築をバイナリコードテスト行列の最適な診断基準として定式化するフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-09T18:29:24Z)
Many-Objective Neuroevolution for Testing Games [8.422309223970302]
テストジェネレータNEATESTは、検索ベースのソフトウェアテスト原則と神経進化を組み合わせることで、課題に取り組む。我々はNEATESTを複数のプログラム状態を同時に対象とする多目的探索アルゴリズムに変換する。実験の結果,NEATESTを複数の目的に拡張することで,平均枝面積が75.88%から81.33%に増加することがわかった。
論文参考訳（メタデータ） (2025-01-14T09:18:34Z)
A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。 2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%～30%、ハードケースでは36%～43%である。
論文参考訳（メタデータ） (2023-03-23T16:15:03Z)
Do We Need Another Explainable AI Method? Toward Unifying Post-hoc XAI Evaluation Methods into an Interactive and Multi-dimensional Benchmark [6.511859672210113]
我々は,xAIアルゴリズムに適用された排他的機能テスト手法を統一するベンチマークであるComparce-xAIを提案する。このベンチマークは、xAIメソッドを評価する複雑さを3つの階層的なスコアリングにカプセル化する。インタラクティブなユーザインターフェースは、xAI結果の解釈におけるエラーの軽減に役立つ。
論文参考訳（メタデータ） (2022-06-08T06:13:39Z)
An Integrated Optimization and Machine Learning Models to Predict the Admission Status of Emergency Patients [1.0323063834827415]
T-XGB、T-ADAB、T-MLPの3つの機械学習アルゴリズムが提案されている。提案フレームワークは,患者搭乗プロセスを積極的に計画することにより,混雑を緩和することができる。その結果,新たに提案したアルゴリズムはAUCが高く,従来のアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2022-02-18T13:50:44Z)
Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。 SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文参考訳（メタデータ） (2021-09-13T18:10:52Z)
Group Testing with Non-identical Infection Probabilities [59.96266198512243]
そこで我々は,集合形成法を用いた適応型グループテストアルゴリズムを開発した。提案アルゴリズムは, エントロピー下界に近い性能を示す。
論文参考訳（メタデータ） (2021-08-27T17:53:25Z)
Double Coverage with Machine-Learned Advice [100.23487145400833]
オンラインの基本的な$k$-serverの問題を学習強化環境で研究する。我々のアルゴリズムは任意の k に対してほぼ最適の一貫性-破壊性トレードオフを達成することを示す。
論文参考訳（メタデータ） (2021-03-02T11:04:33Z)
Bloom Origami Assays: Practical Group Testing [90.2899558237778]
グループテストは、いくつかの魅力的なソリューションでよく研究されている問題である。近年の生物学的研究は、従来の方法と相容れない新型コロナウイルスの実践的な制約を課している。我々は,Bloomフィルタと信条伝搬を組み合わせた新しい手法を開発し,n(100以上)の大きい値に拡張し,良好な経験的結果を得る。
論文参考訳（メタデータ） (2020-07-21T19:31:41Z)
AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文参考訳（メタデータ） (2020-04-30T11:08:49Z)
Genetic Algorithms for Redundancy in Interaction Testing [0.6396288020763143]
インタラクションテストには一連のテストの設計が含まれており、少数のコンポーネントが連携して動作する場合、障害を検出することが保証される。これらのテストスイートを構築するための既存のアルゴリズムは通常、ほとんどのテストを生成する1つの"高速"アルゴリズムと、テストスイートを"完全"する別の"より遅い"アルゴリズムを含んでいる。我々は、これらのアプローチを一般化する遺伝的アルゴリズムを用いて、選択したアルゴリズムの数を増やして冗長性も含み、それを「ステージ」と呼ぶ。
論文参考訳（メタデータ） (2020-02-13T10:16:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。