Fugu-MT 論文翻訳(概要): Recommendations on test datasets for evaluating AI solutions in pathology

論文の概要: Recommendations on test datasets for evaluating AI solutions in pathology

arxiv url: http://arxiv.org/abs/2204.14226v1
Date: Thu, 21 Apr 2022 14:52:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-09 03:14:21.277570
Title: Recommendations on test datasets for evaluating AI solutions in pathology
Title（参考訳）: 病理におけるAIソリューション評価のためのテストデータセットの勧告
Authors: Andr\'e Homeyer, Christian Gei{\ss}ler, Lars Ole Schwen, Falk Zakrzewski, Theodore Evans, Klaus Strohmenger, Max Westphal, Roman David B\"ulow, Michaela Kargl, Aray Karjauv, Isidre Munn\'e-Bertran, Carl Orge Retzlaff, Adri\`a Romero-L\'opez, Tomasz So{\l}tysi\'nski, Markus Plass, Rita Carvalho, Peter Steinbach, Yu-Chia Lan, Nassim Bouteldja, David Haber, Mateo Rojas-Carulla, Alireza Vafaei Sadr, Matthias Kraft, Daniel Kr\"uger, Rutger Fick, Tobias Lang, Peter Boor, Heimo M\"uller, Peter Hufnagl, Norman Zerbe
Abstract要約: デジタル組織像から自動的に情報を抽出するAIソリューションは、病理診断を改善するための大きな可能性を示している。日常使用の前には, 予測性能を評価し, 規制承認を得ることが重要である。商用AI開発者、病理学者、研究者を含む様々な利害関係者からなる委員会は、重要な側面について議論し、病理学におけるテストデータセットに関する広範な文献レビューを行った。
参考スコア（独自算出の注目度）: 2.001521933638504
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Artificial intelligence (AI) solutions that automatically extract information from digital histology images have shown great promise for improving pathological diagnosis. Prior to routine use, it is important to evaluate their predictive performance and obtain regulatory approval. This assessment requires appropriate test datasets. However, compiling such datasets is challenging and specific recommendations are missing. A committee of various stakeholders, including commercial AI developers, pathologists, and researchers, discussed key aspects and conducted extensive literature reviews on test datasets in pathology. Here, we summarize the results and derive general recommendations for the collection of test datasets. We address several questions: Which and how many images are needed? How to deal with low-prevalence subsets? How can potential bias be detected? How should datasets be reported? What are the regulatory requirements in different countries? The recommendations are intended to help AI developers demonstrate the utility of their products and to help regulatory agencies and end users verify reported performance measures. Further research is needed to formulate criteria for sufficiently representative test datasets so that AI solutions can operate with less user intervention and better support diagnostic workflows in the future.
Abstract（参考訳）: デジタル組織像から自動的に情報を抽出する人工知能(AI)ソリューションは、病理診断の改善に大いに期待されている。日常使用の前には,予測性能を評価し,規制承認を得ることが重要である。この評価には適切なテストデータセットが必要です。しかし、このようなデータセットのコンパイルは困難であり、特定の推奨事項が欠けている。商用AI開発者、病理学者、研究者を含む様々な利害関係者からなる委員会は、重要な側面について議論し、病理学におけるテストデータセットに関する広範な文献レビューを行った。ここでは、結果を要約し、テストデータセットの収集に関する一般的な推奨事項を導出する。どれぐらいのイメージが必要なのか? 低頻度サブセットを扱うには? 潜在的なバイアスはどのように検出できるのか? データセットの報告方法は? 異なる国における規制要件は何ですか? この推奨は、ai開発者が製品の実用性を示すのを助け、規制当局やエンドユーザが報告されたパフォーマンス対策を検証するのを助けることを目的としている。さらに研究は、十分な代表的なテストデータセットの基準を定式化し、AIソリューションがユーザーの介入を減らし、将来診断ワークフローをよりサポートできるようにする必要がある。

関連論文リスト

EvoClinician: A Self-Evolving Agent for Multi-Turn Medical Diagnosis via Test-Time Evolutionary Learning [72.70291772077738]
エージェントのマルチターン診断能力を評価するためのベンチマークであるMed-Inquireを提案する。次に、テスト時に効率的な診断戦略を学ぶ自己進化エージェントであるEvoClinicianを紹介する。実験の結果,EvoClinicianは連続学習ベースラインや,メモリエージェントなどの自己進化エージェントよりも優れていた。
論文参考訳（メタデータ） (2026-01-30T13:26:18Z)
Let the Barbarians In: How AI Can Accelerate Systems Performance Research [80.43506848683633]
我々は、この繰り返しサイクルを、AI駆動システム研究の生成、評価、洗練のサイクルと呼ぶ。我々はADRSが生成するソリューションが人間の最先端の設計に適合し、さらに優れることを示した。
論文参考訳（メタデータ） (2025-12-16T18:51:23Z)
Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。 LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文参考訳（メタデータ） (2025-10-21T18:10:45Z)
Medical Data Pecking: A Context-Aware Approach for Automated Quality Evaluation of Structured Medical Data [5.681039620785591]
EHRデータには、サブポピュレーションやバイアス、体系的なエラーなど、重要な品質上の問題が含まれていることが多い。既存の品質評価手法は依然として不十分であり、研究のためのデータ適合性を評価する体系的な手順が欠如している。データ品質の懸念を識別するために,ソフトウェア工学からの単体テストとカバレッジの概念を適用した医療データペッキング手法を提案する。
論文参考訳（メタデータ） (2025-07-03T13:54:50Z)
RAID: A Dataset for Testing the Adversarial Robustness of AI-Generated Image Detectors [57.81012948133832]
本稿では,72kの多種多様かつ高い変換可能な対向例からなるRAID(Robust Evaluation of AI- generated Image Detectors)を提案する。提案手法は,未知の検出器に高い成功率で転送する逆画像を生成する。以上の結果から,現在最先端のAI生成画像検出器は,敵の例によって容易に認識できることが示唆された。
論文参考訳（メタデータ） (2025-06-04T14:16:00Z)
TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。 TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文参考訳（メタデータ） (2025-06-03T16:07:54Z)
Detecting Dataset Bias in Medical AI: A Generalized and Modality-Agnostic Auditing Framework [8.017827642932746]
データセットに対する一般属性ユーティリティと検出可能性によるバイアステスト(G-AUDIT)は、モダリティに依存しないデータセット監査フレームワークである。本手法は,患者属性を含むデータ特性とタスクレベルのアノテーションの関係について検討する。 G-AUDITは、従来の定性的手法で見過ごされる微妙な偏見をうまく識別する。
論文参考訳（メタデータ） (2025-03-13T02:16:48Z)
Datasheets for Healthcare AI: A Framework for Transparency and Bias Mitigation [0.0]
トレーニングデータセットにおけるバイアス、データ不完全性、不正確性は、不公平な結果をもたらし、既存の格差を増幅する。透明性を促進し,規制要件との整合性を確保するためのデータセットドキュメンテーションフレームワークを提案する。この発見は、責任あるAI開発を促進する上で、データセットドキュメンテーションの重要性を強調している。
論文参考訳（メタデータ） (2025-01-09T23:36:34Z)
A Classification Benchmark for Artificial Intelligence Detection of Laryngeal Cancer from Patient Speech [0.30723404270319693]
現在の診断経路は、多くの患者が緊急に疑われたがん経路を誤って参照する原因となっている。人工知能は、患者音声から喉頭癌の非侵襲的検出を可能にすることで、有望な解決策を提供する。この研究は、36のモデルをトレーニングし、オープンソースのデータセットで評価するベンチマークスイートを導入している。
論文参考訳（メタデータ） (2024-12-20T10:34:03Z)
AI in radiological imaging of soft-tissue and bone tumours: a systematic review evaluating against CLAIM and FUTURE-AI guidelines [1.5332408886895255]
軟部腫瘍と骨腫瘍 (STBT) は稀で, 診断に難渋する病変であり, 様々な臨床症状と治療のアプローチがある。本稿では,これらの腫瘍の診断と予後のための放射線画像を用いた人工知能(AI)法の概要について概説する。
論文参考訳（メタデータ） (2024-08-22T15:31:48Z)
TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文参考訳（メタデータ） (2024-06-30T09:13:10Z)
A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文参考訳（メタデータ） (2024-06-05T13:40:07Z)
A Survey of Artificial Intelligence in Gait-Based Neurodegenerative Disease Diagnosis [51.07114445705692]
神経変性疾患(神経変性疾患、ND)は、伝統的に医学的診断とモニタリングのために広範囲の医療資源と人的努力を必要とする。重要な疾患関連運動症状として、ヒトの歩行を利用して異なるNDを特徴づけることができる。人工知能(AI)モデルの現在の進歩は、NDの識別と分類のための自動歩行分析を可能にする。
論文参考訳（メタデータ） (2024-05-21T06:44:40Z)
Challenges for Responsible AI Design and Workflow Integration in Healthcare: A Case Study of Automatic Feeding Tube Qualification in Radiology [35.284458448940796]
ナトリウムガスチューブ(NGT)は、鼻から胃に挿入されたチューブを供給し、栄養や薬品を供給している。近年のAI開発は、チェストX線画像からNGT配置を堅牢に検出する可能性を示している。本稿では,この問題に対する人間中心のアプローチを提案するとともに,コンテキスト調査および15の臨床ステークホルダとの詳細なインタビューの結果から得られた知見について述べる。
論文参考訳（メタデータ） (2024-05-08T14:16:22Z)
BESTMVQA: A Benchmark Evaluation System for Medical Visual Question Answering [8.547600133510551]
本稿では,BESTMVQAで表される医用視覚質問応答のベンチマーク評価SysTemを開発する。本システムは,Med-VQAデータセットを自動構築する上で有用なツールを提供する。簡単な構成で、ベンチマークデータセット上で選択したモデルを自動でトレーニングし、評価する。
論文参考訳（メタデータ） (2023-12-13T03:08:48Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Informing clinical assessment by contextualizing post-hoc explanations of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文参考訳（メタデータ） (2023-02-11T18:07:11Z)
Weakly Supervised Anomaly Detection: A Survey [75.26180038443462]
異常検出(AD)は、さまざまなアプリケーションによる機械学習において重要なタスクである。弱教師付き異常検出法(WSAD)の総合的な調査を行った。各設定に対して、正式な定義、鍵アルゴリズム、潜在的な将来の方向性を提供する。
論文参考訳（メタデータ） (2023-02-09T10:27:21Z)
Benchmark datasets driving artificial intelligence development fail to capture the needs of medical professionals [4.799783526620609]
臨床およびバイオメディカル自然言語処理(NLP)の幅広い領域に関するデータセットとベンチマークのカタログを公開した。 450のNLPデータセットが手動で体系化され、豊富なメタデータで注釈付けされた。我々の分析は、AIベンチマークの直接臨床関連性は乏しく、臨床医が対応したい仕事のほとんどをカバーできないことを示唆している。
論文参考訳（メタデータ） (2022-01-18T15:05:28Z)
Hemogram Data as a Tool for Decision-making in COVID-19 Management: Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文参考訳（メタデータ） (2020-05-10T01:45:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。