論文の概要: SLEEPYLAND: trust begins with fair evaluation of automatic sleep staging models
- arxiv url: http://arxiv.org/abs/2506.08574v2
- Date: Wed, 11 Jun 2025 13:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.071069
- Title: SLEEPYLAND: trust begins with fair evaluation of automatic sleep staging models
- Title(参考訳): SLEEPYLAND:信頼は自動睡眠ステージモデルの評価から始まる
- Authors: Alvise Dei Rossi, Matteo Metaldi, Michal Bechny, Irina Filchenko, Julia van der Meer, Markus H. Schmidt, Claudio L. A. Bassetti, Athina Tzovara, Francesca D. Faraci, Luigi Fiorillo,
- Abstract要約: 本稿では,オープンソースの睡眠ステージ評価フレームワークであるSLEEPYLANDを紹介する。
ドメイン内睡眠記録(ID)は220万時間以上、ドメイン外睡眠記録(OOD)は84万時間以上である。
本稿では,SoMNUSを紹介する。SoMNUSは,ソフト投票によるアーキテクチャとチャネル設定のモデルを組み合わせたアンサンブルである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in deep learning for automatic sleep staging, clinical adoption remains limited due to challenges in fair model evaluation, generalization across diverse datasets, model bias, and variability in human annotations. We present SLEEPYLAND, an open-source sleep staging evaluation framework designed to address these barriers. It includes more than 220'000 hours in-domain (ID) sleep recordings, and more than 84'000 hours out-of-domain (OOD) sleep recordings, spanning a broad range of ages, sleep-wake disorders, and hardware setups. We release pre-trained models based on high-performing SoA architectures and evaluate them under standardized conditions across single- and multi-channel EEG/EOG configurations. We introduce SOMNUS, an ensemble combining models across architectures and channel setups via soft voting. SOMNUS achieves robust performance across twenty-four different datasets, with macro-F1 scores between 68.7% and 87.2%, outperforming individual models in 94.9% of cases. Notably, SOMNUS surpasses previous SoA methods, even including cases where compared models were trained ID while SOMNUS treated the same data as OOD. Using a subset of the BSWR (N=6'633), we quantify model biases linked to age, gender, AHI, and PLMI, showing that while ensemble improves robustness, no model architecture consistently minimizes bias in performance and clinical markers estimation. In evaluations on OOD multi-annotated datasets (DOD-H, DOD-O), SOMNUS exceeds the best human scorer, i.e., MF1 85.2% vs 80.8% on DOD-H, and 80.2% vs 75.9% on DOD-O, better reproducing the scorer consensus than any individual expert (k = 0.89/0.85 and ACS = 0.95/0.94 for healthy/OSA cohorts). Finally, we introduce ensemble disagreement metrics - entropy and inter-model divergence based - predicting regions of scorer disagreement with ROC AUCs up to 0.828, offering a data-driven proxy for human uncertainty.
- Abstract(参考訳): 自動睡眠ステージングのためのディープラーニングの進歩にもかかわらず、フェアモデル評価の課題、多様なデータセットの一般化、モデルのバイアス、人間のアノテーションの可変性などにより、臨床導入は制限されている。
我々はこれらの障壁に対処するために設計されたオープンソースの睡眠ステージ評価フレームワークであるSLEEPYLANDを提案する。
ドメイン内(ID)睡眠記録は220万時間以上、ドメイン外(OOD)睡眠記録は84万時間以上、幅広い年齢、睡眠覚醒障害、ハードウェアのセットアップがある。
我々は、高性能なSoAアーキテクチャに基づく事前学習モデルをリリースし、それらをシングルチャネルおよびマルチチャネルEEG/EOG構成の標準化条件下で評価する。
本稿では,SoMNUSを紹介する。SoMNUSは,ソフト投票によるアーキテクチャとチャネル設定のモデルを組み合わせたアンサンブルである。
SOMNUSは24種類のデータセットで堅牢なパフォーマンスを実現しており、マクロF1スコアは68.7%から87.2%であり、94.9%のケースで個々のモデルを上回っている。
特に、SOMNUSは従来のSoAメソッドを上回り、比較モデルが訓練された場合を含め、OODと同じデータを処理した。
BSWRのサブセット(N=6'633)を用いて、年齢、性別、AHI、PLMIに関連するモデルバイアスを定量化し、アンサンブルが堅牢性を改善する一方で、パフォーマンスおよび臨床マーカー推定におけるバイアスを一貫して最小化するモデルアーキテクチャは存在しないことを示す。
OODマルチアノテーションデータセット(DOD-H、DOD-O)の評価において、SOMNUSは最高の人点数であるMF1 85.2%、DOD-Hで80.8%、DOD-Oで80.2%、DOD-Oで75.9%、各専門家よりもスコアのコンセンサス(k = 0.89/0.85、ACS = 0.95/0.94、健康/OSAコホート)を上回っている。
最後に、アンサンブル不一致指標(エントロピーとモデル間分岐に基づく)を導入し、ROC AUCとのスコアの不一致領域を0.828まで予測し、人間の不確実性に対するデータ駆動プロキシを提供する。
関連論文リスト
- WorldPM: Scaling Human Preference Modeling [130.23230492612214]
我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。
多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。
1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-15T17:38:37Z) - Segment-and-Classify: ROI-Guided Generalizable Contrast Phase Classification in CT Using XGBoost [7.689389068258514]
本研究は,別機関の3つの公開CTデータセットを利用した。
位相予測モデルはWAW-TACEデータセットに基づいてトレーニングされ、VinDr-MultiphaseとC4KC-KiTSデータセット上で検証された。
論文 参考訳(メタデータ) (2025-01-23T20:01:33Z) - Early Diagnosis of Alzheimer's Diseases and Dementia from MRI Images Using an Ensemble Deep Learning [0.7510165488300369]
アルツハイマー病(英語: Alzheimer's Disease, AD)は、認知障害や認知失調を引き起こす進行性神経疾患である。
本研究では,ADの初期段階を正確に検出するために,IR-BRAINNETとModified-DEMNETの2つのCNNを提案する。
また、CNN間のばらつきを低減し、AD検出を向上させるために出力を平均化するアンサンブルモデルも導入した。
論文 参考訳(メタデータ) (2024-12-07T14:27:41Z) - An AI-enabled Bias-Free Respiratory Disease Diagnosis Model using Cough
Audio: A Case Study for COVID-19 [1.1146119513912156]
トレーニングデータ配信における共同創設者の影響を軽減するため, Bias Free Network (RBFNet) を提案する。
RBFNetは正確なRD診断機能を保証し、COVID19データセットを組み込むことでその関連性を強調する。
条件付き生成Adrial Network (cGAN) を定式化するための分類スキームに新たなバイアス予測器が組み込まれている
論文 参考訳(メタデータ) (2024-01-04T13:09:45Z) - On the explainability of hospitalization prediction on a large COVID-19
patient dataset [45.82374977939355]
我々は、新型コロナウイルス陽性の米国の患者の大規模な(110ドル以上)コホートでの入院を予測するために、さまざまなAIモデルを開発した。
高いデータアンバランスにもかかわらず、モデルは平均精度0.96-0.98 (0.75-0.85)、リコール0.96-0.98 (0.74-0.85)、F_score097-0.98 (0.79-0.83)に達する。
論文 参考訳(メタデータ) (2021-10-28T10:23:38Z) - Sleep Staging Based on Serialized Dual Attention Network [0.0]
生の脳波に基づく深層学習モデルSDANを提案する。
チャネルアテンションと空間アテンション機構を連続的に組み合わせて、キー情報をフィルタリングしハイライトする。
他の方法と比較して、N1睡眠期において優れた結果が得られる。
論文 参考訳(メタデータ) (2021-07-18T13:18:12Z) - Convolutional Neural Networks for Sleep Stage Scoring on a Two-Channel
EEG Signal [63.18666008322476]
睡眠障害は、世界中の主要な病気の1つです。
専門家が使用する基本的なツールはPolysomnogramで、睡眠中に記録された様々な信号の集合である。
専門家は、標準的なガイドラインの1つに従って異なる信号を採点する必要があります。
論文 参考訳(メタデータ) (2021-03-30T09:59:56Z) - MSED: a multi-modal sleep event detection model for clinical sleep
analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。
モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文 参考訳(メタデータ) (2021-01-07T13:08:44Z) - Automatic sleep stage classification with deep residual networks in a
mixed-cohort setting [63.52264764099532]
我々は,大規模コホートの一般化性を評価するために,新しいディープニューラルネットワークモデルを開発した。
総合的な分類精度はトレーニングデータの分数を増やして向上した。
論文 参考訳(メタデータ) (2020-08-21T10:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。