論文の概要: SLEEPYLAND: trust begins with fair evaluation of automatic sleep staging models
- arxiv url: http://arxiv.org/abs/2506.08574v2
- Date: Wed, 11 Jun 2025 13:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.071069
- Title: SLEEPYLAND: trust begins with fair evaluation of automatic sleep staging models
- Title(参考訳): SLEEPYLAND:信頼は自動睡眠ステージモデルの評価から始まる
- Authors: Alvise Dei Rossi, Matteo Metaldi, Michal Bechny, Irina Filchenko, Julia van der Meer, Markus H. Schmidt, Claudio L. A. Bassetti, Athina Tzovara, Francesca D. Faraci, Luigi Fiorillo,
- Abstract要約: 本稿では,オープンソースの睡眠ステージ評価フレームワークであるSLEEPYLANDを紹介する。
ドメイン内睡眠記録(ID)は220万時間以上、ドメイン外睡眠記録(OOD)は84万時間以上である。
本稿では,SoMNUSを紹介する。SoMNUSは,ソフト投票によるアーキテクチャとチャネル設定のモデルを組み合わせたアンサンブルである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in deep learning for automatic sleep staging, clinical adoption remains limited due to challenges in fair model evaluation, generalization across diverse datasets, model bias, and variability in human annotations. We present SLEEPYLAND, an open-source sleep staging evaluation framework designed to address these barriers. It includes more than 220'000 hours in-domain (ID) sleep recordings, and more than 84'000 hours out-of-domain (OOD) sleep recordings, spanning a broad range of ages, sleep-wake disorders, and hardware setups. We release pre-trained models based on high-performing SoA architectures and evaluate them under standardized conditions across single- and multi-channel EEG/EOG configurations. We introduce SOMNUS, an ensemble combining models across architectures and channel setups via soft voting. SOMNUS achieves robust performance across twenty-four different datasets, with macro-F1 scores between 68.7% and 87.2%, outperforming individual models in 94.9% of cases. Notably, SOMNUS surpasses previous SoA methods, even including cases where compared models were trained ID while SOMNUS treated the same data as OOD. Using a subset of the BSWR (N=6'633), we quantify model biases linked to age, gender, AHI, and PLMI, showing that while ensemble improves robustness, no model architecture consistently minimizes bias in performance and clinical markers estimation. In evaluations on OOD multi-annotated datasets (DOD-H, DOD-O), SOMNUS exceeds the best human scorer, i.e., MF1 85.2% vs 80.8% on DOD-H, and 80.2% vs 75.9% on DOD-O, better reproducing the scorer consensus than any individual expert (k = 0.89/0.85 and ACS = 0.95/0.94 for healthy/OSA cohorts). Finally, we introduce ensemble disagreement metrics - entropy and inter-model divergence based - predicting regions of scorer disagreement with ROC AUCs up to 0.828, offering a data-driven proxy for human uncertainty.
- Abstract(参考訳): 自動睡眠ステージングのためのディープラーニングの進歩にもかかわらず、フェアモデル評価の課題、多様なデータセットの一般化、モデルのバイアス、人間のアノテーションの可変性などにより、臨床導入は制限されている。
我々はこれらの障壁に対処するために設計されたオープンソースの睡眠ステージ評価フレームワークであるSLEEPYLANDを提案する。
ドメイン内(ID)睡眠記録は220万時間以上、ドメイン外(OOD)睡眠記録は84万時間以上、幅広い年齢、睡眠覚醒障害、ハードウェアのセットアップがある。
我々は、高性能なSoAアーキテクチャに基づく事前学習モデルをリリースし、それらをシングルチャネルおよびマルチチャネルEEG/EOG構成の標準化条件下で評価する。
本稿では,SoMNUSを紹介する。SoMNUSは,ソフト投票によるアーキテクチャとチャネル設定のモデルを組み合わせたアンサンブルである。
SOMNUSは24種類のデータセットで堅牢なパフォーマンスを実現しており、マクロF1スコアは68.7%から87.2%であり、94.9%のケースで個々のモデルを上回っている。
特に、SOMNUSは従来のSoAメソッドを上回り、比較モデルが訓練された場合を含め、OODと同じデータを処理した。
BSWRのサブセット(N=6'633)を用いて、年齢、性別、AHI、PLMIに関連するモデルバイアスを定量化し、アンサンブルが堅牢性を改善する一方で、パフォーマンスおよび臨床マーカー推定におけるバイアスを一貫して最小化するモデルアーキテクチャは存在しないことを示す。
OODマルチアノテーションデータセット(DOD-H、DOD-O)の評価において、SOMNUSは最高の人点数であるMF1 85.2%、DOD-Hで80.8%、DOD-Oで80.2%、DOD-Oで75.9%、各専門家よりもスコアのコンセンサス(k = 0.89/0.85、ACS = 0.95/0.94、健康/OSAコホート)を上回っている。
最後に、アンサンブル不一致指標(エントロピーとモデル間分岐に基づく)を導入し、ROC AUCとのスコアの不一致領域を0.828まで予測し、人間の不確実性に対するデータ駆動プロキシを提供する。
関連論文リスト
- Efficient Federated Learning with Heterogeneous Data and Adaptive Dropout [62.73150122809138]
Federated Learning(FL)は、複数のエッジデバイスを使用したグローバルモデルの協調トレーニングを可能にする、有望な分散機械学習アプローチである。
動的不均一モデルアグリゲーション(FedDH)と適応ドロップアウト(FedAD)の2つの新しい手法を備えたFedDHAD FLフレームワークを提案する。
これら2つの手法を組み合わせることで、FedDHADは精度(最大6.7%)、効率(最大2.02倍高速)、コスト(最大15.0%小型)で最先端のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-14T16:19:00Z) - WorldPM: Scaling Human Preference Modeling [130.23230492612214]
我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。
多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。
1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-15T17:38:37Z) - Segment-and-Classify: ROI-Guided Generalizable Contrast Phase Classification in CT Using XGBoost [7.689389068258514]
本研究は,別機関の3つの公開CTデータセットを利用した。
位相予測モデルはWAW-TACEデータセットに基づいてトレーニングされ、VinDr-MultiphaseとC4KC-KiTSデータセット上で検証された。
論文 参考訳(メタデータ) (2025-01-23T20:01:33Z) - Early Diagnosis of Alzheimer's Diseases and Dementia from MRI Images Using an Ensemble Deep Learning [0.7510165488300369]
アルツハイマー病(英語: Alzheimer's Disease, AD)は、認知障害や認知失調を引き起こす進行性神経疾患である。
本研究では,ADの初期段階を正確に検出するために,IR-BRAINNETとModified-DEMNETの2つのCNNを提案する。
また、CNN間のばらつきを低減し、AD検出を向上させるために出力を平均化するアンサンブルモデルも導入した。
論文 参考訳(メタデータ) (2024-12-07T14:27:41Z) - An AI-enabled Bias-Free Respiratory Disease Diagnosis Model using Cough
Audio: A Case Study for COVID-19 [1.1146119513912156]
トレーニングデータ配信における共同創設者の影響を軽減するため, Bias Free Network (RBFNet) を提案する。
RBFNetは正確なRD診断機能を保証し、COVID19データセットを組み込むことでその関連性を強調する。
条件付き生成Adrial Network (cGAN) を定式化するための分類スキームに新たなバイアス予測器が組み込まれている
論文 参考訳(メタデータ) (2024-01-04T13:09:45Z) - On the explainability of hospitalization prediction on a large COVID-19
patient dataset [45.82374977939355]
我々は、新型コロナウイルス陽性の米国の患者の大規模な(110ドル以上)コホートでの入院を予測するために、さまざまなAIモデルを開発した。
高いデータアンバランスにもかかわらず、モデルは平均精度0.96-0.98 (0.75-0.85)、リコール0.96-0.98 (0.74-0.85)、F_score097-0.98 (0.79-0.83)に達する。
論文 参考訳(メタデータ) (2021-10-28T10:23:38Z) - Pediatric Automatic Sleep Staging: A comparative study of
state-of-the-art deep learning methods [16.651453507701966]
小児期自動睡眠ステージングにおける最先端の深層学習手法に関する大規模比較研究を行った。
1200人以上の子どものサンプルを評価するため、6つの異なる特徴を持つ深層ニューラルネットワークの選択が採用されている。
実験の結果,新しい被験者で評価した場合の自動睡眠ステージングの成績は,成人で報告された専門家レベルに匹敵することがわかった。
論文 参考訳(メタデータ) (2021-08-23T15:39:48Z) - Sleep Staging Based on Serialized Dual Attention Network [0.0]
生の脳波に基づく深層学習モデルSDANを提案する。
チャネルアテンションと空間アテンション機構を連続的に組み合わせて、キー情報をフィルタリングしハイライトする。
他の方法と比較して、N1睡眠期において優れた結果が得られる。
論文 参考訳(メタデータ) (2021-07-18T13:18:12Z) - Convolutional Neural Networks for Sleep Stage Scoring on a Two-Channel
EEG Signal [63.18666008322476]
睡眠障害は、世界中の主要な病気の1つです。
専門家が使用する基本的なツールはPolysomnogramで、睡眠中に記録された様々な信号の集合である。
専門家は、標準的なガイドラインの1つに従って異なる信号を採点する必要があります。
論文 参考訳(メタデータ) (2021-03-30T09:59:56Z) - MSED: a multi-modal sleep event detection model for clinical sleep
analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。
モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文 参考訳(メタデータ) (2021-01-07T13:08:44Z) - Automatic sleep stage classification with deep residual networks in a
mixed-cohort setting [63.52264764099532]
我々は,大規模コホートの一般化性を評価するために,新しいディープニューラルネットワークモデルを開発した。
総合的な分類精度はトレーニングデータの分数を増やして向上した。
論文 参考訳(メタデータ) (2020-08-21T10:48:35Z) - Personalized Automatic Sleep Staging with Single-Night Data: a Pilot
Study with KL-Divergence Regularization [18.754100926147903]
この問題に対処するために,Kulback-Leibler(KL)分散正規化トランスファーラーニング手法を提案する。
トレーニング済みのSeqSleepNetを出発点として、一晩のパーソナライズデータを精査し、パーソナライズされたモデルを導出する。
75名の被験者によるSleep-EDF Expandedデータベースの実験結果は、提案したKL分割正規化の助けを借りて、一晩データによる睡眠ステージのパーソナライズが可能であることを示している。
論文 参考訳(メタデータ) (2020-04-23T17:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。