論文の概要: SzCORE as a benchmark: report from the seizure detection challenge at the 2025 AI in Epilepsy and Neurological Disorders Conference
- arxiv url: http://arxiv.org/abs/2505.18191v1
- Date: Mon, 19 May 2025 17:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.142511
- Title: SzCORE as a benchmark: report from the seizure detection challenge at the 2025 AI in Epilepsy and Neurological Disorders Conference
- Title(参考訳): ベンチマークとしてのSzCORE:2025年のてんかん・神経疾患カンファレンスにおける発作検出課題からの報告
- Authors: Jonathan Dan, Amirhossein Shahbazinia, Christodoulos Kechris, David Atienza,
- Abstract要約: 65名(4,360時間)の脳波連続記録のプライベートデータセットを用いて,課題を整理した。
参加者は、感度、精度、F1スコア、偽陽性などの事象ベースの指標に基づいて、発作の発症と持続時間を検出する必要がある。
その結果,F1スコアは43%(感度,精度45%)であり,発作検出の難しさが示唆された。
- 参考スコア(独自算出の注目度): 3.571742731880049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable automatic seizure detection from long-term EEG remains a challenge, as current machine learning models often fail to generalize across patients or clinical settings. Manual EEG review remains the clinical standard, underscoring the need for robust models and standardized evaluation. To rigorously assess algorithm performance, we organized a challenge using a private dataset of continuous EEG recordings from 65 subjects (4,360 hours). Expert neurophysiologists annotated the data, providing ground truth for seizure events. Participants were required to detect seizure onset and duration, with evaluation based on event-based metrics, including sensitivity, precision, F1-score, and false positives per day. The SzCORE framework ensured standardized evaluation. The primary ranking criterion was the event-based F1-score, reflecting clinical relevance by balancing sensitivity and false positives. The challenge received 30 submissions from 19 teams, with 28 algorithms evaluated. Results revealed wide variability in performance, with a top F1-score of 43% (sensitivity 37%, precision 45%), highlighting the ongoing difficulty of seizure detection. The challenge also revealed a gap between reported performance and real-world evaluation, emphasizing the importance of rigorous benchmarking. Compared to previous challenges and commercial systems, the best-performing algorithm in this contest showed improved performance. Importantly, the challenge platform now supports continuous benchmarking, enabling reproducible research, integration of new datasets, and clinical evaluation of seizure detection algorithms using a standardized framework.
- Abstract(参考訳): 長期脳波からの信頼性の高い自動発作検出は依然として課題であり、現在の機械学習モデルは患者や臨床現場で一般化に失敗することが多い。
手動脳波検査は依然として臨床標準であり、堅牢なモデルと標準化された評価の必要性を強調している。
アルゴリズムの性能を厳格に評価するために,65名(4,360時間)の連続脳波記録のプライベートデータセットを用いて課題を整理した。
専門の神経生理学者はデータを注釈し、発作発生の根拠となる真実を提供した。
参加者は、感度、精度、F1スコア、偽陽性などの事象ベースの指標に基づいて、発作の発症と持続時間を検出する必要がある。
SzCOREフレームワークは標準化された評価を保証する。
主要なランキング基準はF1スコアであり、感度と偽陽性のバランスをとることで臨床的意義を反映している。
この挑戦は19チームから30の応募を受け、28のアルゴリズムが評価された。
その結果,F1スコアは43%(感度37%,精度45%)であり,発作検出の難しさが示唆された。
この課題はまた、報告されたパフォーマンスと実世界の評価のギャップを明らかにし、厳密なベンチマークの重要性を強調した。
従来の課題や商用システムと比較して、このコンテストで最高の性能のアルゴリズムは性能を向上した。
重要なことは、このチャレンジプラットフォームが継続的ベンチマークをサポートし、再現可能な研究、新しいデータセットの統合、標準化されたフレームワークを使用した発作検出アルゴリズムの臨床的評価を可能にしたことだ。
関連論文リスト
- Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Arges: Spatio-Temporal Transformer for Ulcerative Colitis Severity Assessment in Endoscopy Videos [2.0735422289416605]
専門家のMES/UCEISアノテーションは時間を要するため、ラター間のばらつきに影響を受けやすい。
エンド・ツー・エンド(e2e)トレーニングを備えたCNNベースの弱い教師付きモデルでは、新しい疾患スコアへの一般化が欠如している。
アルジェス(Arges)は、内視鏡で病気の重症度を推定するために位置エンコーディングを組み込んだ深層学習フレームワークである。
論文 参考訳(メタデータ) (2024-10-01T09:23:14Z) - Enhancing clinical decision support with physiological waveforms -- a multimodal benchmark in emergency care [0.9503773054285559]
本稿では,救急医療におけるマルチモーダル意思決定支援を推進すべく,データセットとベンチマークプロトコルを提案する。
本モデルでは, 人口統計, バイオメトリックス, バイタルサイン, 検査値, 心電図(ECG)波形を入力として, 放電診断と患者の劣化の双方を予測する。
論文 参考訳(メタデータ) (2024-07-25T08:21:46Z) - TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - A Robust Ensemble Algorithm for Ischemic Stroke Lesion Segmentation: Generalizability and Clinical Utility Beyond the ISLES Challenge [30.611482996378683]
画像と疾患の多様性は、臨床価値を持つ一般化可能なAIアルゴリズムの開発を妨げる。
2022 Ischemic Stroke Lesion (ISLES) から得られた新しいアンサンブルアルゴリズムを提案する。
トップパフォーマンスのアルゴリズムを、個々のソリューションの限界を克服するアンサンブルモデルに組み合わせました。
論文 参考訳(メタデータ) (2024-03-28T13:56:26Z) - Deep Rib Fracture Instance Segmentation and Classification from CT on
the RibFrac Challenge [66.86170104167608]
RibFrac Challengeは、660のCTスキャンから5,000以上のリブ骨折のベンチマークデータセットを提供する。
MICCAI 2020チャレンジ期間中に243つの結果が評価され、7つのチームがチャレンジサマリーに参加するために招待された。
この分析により、いくつかのトップリブ骨折検出ソリューションが、人間の専門家と同等かそれ以上の性能を達成したことが明らかになった。
論文 参考訳(メタデータ) (2024-02-14T18:18:33Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Predicting Parkinson's Disease with Multimodal Irregularly Collected
Longitudinal Smartphone Data [75.23250968928578]
パーキンソン病は神経疾患であり、高齢者に多い。
伝統的に病気を診断する方法は、一連の活動テストの品質に関する個人的主観的臨床評価に依存している。
そこで本研究では,スマートフォンが収集した生の行動データを用いて,パーキンソン病を予測するための時系列に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-25T01:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。