論文の概要: Digital FAST: An AI-Driven Multimodal Framework for Rapid and Early Stroke Screening
- arxiv url: http://arxiv.org/abs/2601.11896v1
- Date: Sat, 17 Jan 2026 03:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.362197
- Title: Digital FAST: An AI-Driven Multimodal Framework for Rapid and Early Stroke Screening
- Title(参考訳): Digital FAST: 迅速かつ早期のストロークスクリーニングのためのAI駆動型マルチモーダルフレームワーク
- Authors: Ngoc-Khai Hoang, Thi-Nhu-Mai Nguyen, Huy-Hieu Pham,
- Abstract要約: 本研究では,F.A.S.T.アセスメントで収集したデータをもとに,高速かつ非侵襲的な2次脳卒中自動スクリーニングのための多モード深層学習フレームワークを提案する。
提案手法は, 表情, 音声信号, 上体動作からの相補的な情報を統合し, 診断の堅牢性を高める。
- 参考スコア(独自算出の注目度): 0.7136933021609076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Early identification of stroke symptoms is essential for enabling timely intervention and improving patient outcomes, particularly in prehospital settings. This study presents a fast, non-invasive multimodal deep learning framework for automatic binary stroke screening based on data collected during the F.A.S.T. assessment. The proposed approach integrates complementary information from facial expressions, speech signals, and upper-body movements to enhance diagnostic robustness. Facial dynamics are represented using landmark based features and modeled with a Transformer architecture to capture temporal dependencies. Speech signals are converted into mel spectrograms and processed using an Audio Spectrogram Transformer, while upper-body pose sequences are analyzed with an MLP-Mixer network to model spatiotemporal motion patterns. The extracted modality specific representations are combined through an attention-based fusion mechanism to effectively learn cross modal interactions. Experiments conducted on a self-collected dataset of 222 videos from 37 subjects demonstrate that the proposed multimodal model consistently outperforms unimodal baselines, achieving 95.83% accuracy and a 96.00% F1-score. The model attains a strong balance between sensitivity and specificity and successfully detects all stroke cases in the test set. These results highlight the potential of multimodal learning and transfer learning for early stroke screening, while emphasizing the need for larger, clinically representative datasets to support reliable real-world deployment.
- Abstract(参考訳): 脳卒中症状の早期発見は、特に先天的な状況において、タイムリーに介入し、患者の結果を改善するために不可欠である。
本研究では,F.A.S.T.アセスメントで収集したデータをもとに,高速かつ非侵襲的な2次脳卒中自動スクリーニングのための多モード深層学習フレームワークを提案する。
提案手法は, 表情, 音声信号, 上体動作からの相補的な情報を統合し, 診断の堅牢性を高める。
顔のダイナミクスはランドマークベースの機能を使用して表現され、一時的な依存関係をキャプチャするためにTransformerアーキテクチャでモデル化される。
音声信号をメルスペクトルに変換してオーディオ・スペクトログラム変換器を用いて処理し、上半身ポーズ列をMLP-Mixerネットワークで解析して時空間動作パターンをモデル化する。
抽出したモダリティ特異表現は、注意に基づく融合機構を介して結合され、クロスモーダル相互作用を効果的に学習する。
37人の被験者による222本の動画の自己収集による実験では、提案されたマルチモーダルモデルは単調なベースラインを一貫して上回り、95.83%の精度と96.00%のF1スコアを達成した。
モデルは感度と特異性の間に強いバランスを保ち、テストセット内のすべてのストロークケースを正常に検出する。
これらの結果は、早期脳卒中スクリーニングのためのマルチモーダルラーニングとトランスファーラーニングの可能性を強調し、信頼性の高い実世界展開をサポートするために、より大きく、臨床的に代表されるデータセットの必要性を強調した。
関連論文リスト
- Automated Lesion Segmentation of Stroke MRI Using nnU-Net: A Comprehensive External Validation Across Acute and Chronic Lesions [0.0]
複数のMRIデータセットにまたがるnU-Netフレームワークを用いて脳卒中病変のセグメンテーションを評価する。
脳卒中期にはモデルが頑健な一般化を示し, セグメンテーション精度はレータ間信頼性に近づいた。
急性期において、DWIで訓練されたモデルはFLAIRベースのモデルより一貫して優れており、マルチモーダルの組み合わせからわずかに利益を得ただけだった。
慢性期脳卒中では、トレーニングセットのサイズが増加し、数百件以上のリターンが低下した。
論文 参考訳(メタデータ) (2026-01-13T16:29:20Z) - FusAD: Time-Frequency Fusion with Adaptive Denoising for General Time Series Analysis [92.23551599659186]
時系列分析は、金融、医療、産業、気象学などの分野において重要な役割を果たす。
FusADは多様な時系列タスク用に設計された統合分析フレームワークである。
論文 参考訳(メタデータ) (2025-12-16T04:34:27Z) - Machine Learning Approaches to Clinical Risk Prediction: Multi-Scale Temporal Alignment in Electronic Health Records [2.9576397177561087]
本研究では,マルチスケール時間アライメントネットワーク(MSTAN)に基づくリスク予測手法を提案する。
電子健康記録(EHR)における時間的不規則性、サンプリング間隔差、およびマルチスケールダイナミック依存関係の課題に対処する。
EHRデータセットで実施された実験によると、提案されたモデルは、精度、リコール、精度、F1-Scoreのメインストリームベースラインを上回っている。
論文 参考訳(メタデータ) (2025-11-26T16:33:59Z) - From Prototypes to Sparse ECG Explanations: SHAP-Driven Counterfactuals for Multivariate Time-Series Multi-class Classification [8.113866195465976]
本稿では,12リードのECG分類モデルに適合したスパース対実的説明を生成するためのプロトタイプ駆動型フレームワークを提案する。
本手法では、SHAPに基づくしきい値を用いて、臨界信号セグメントを特定し、インターバルルールに変換する。
提案手法の3つの変種であるOriginal, Sparse, Aligned Sparseを評価し,MIの98.9%の妥当性からハイドロフィ(HYP)検出の課題まで,クラス固有の性能について検討した。
論文 参考訳(メタデータ) (2025-10-22T12:09:50Z) - impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - A Novel Data Augmentation Strategy for Robust Deep Learning Classification of Biomedical Time-Series Data: Application to ECG and EEG Analysis [2.355460994057843]
本研究では,様々な信号タイプにまたがる最先端性能を実現する,新しい統合型深層学習フレームワークを提案する。
従来の研究とは異なり、将来予測能力を達成するために信号の複雑さを科学的に増加させ、最高の予測を導いた。
アーキテクチャには130MBのメモリとプロセスが10ミリ秒で必要であり、ローエンドデバイスやウェアラブルデバイスへのデプロイに適していることを示唆している。
論文 参考訳(メタデータ) (2025-07-16T21:38:10Z) - CTPD: Cross-Modal Temporal Pattern Discovery for Enhanced Multimodal Electronic Health Records Analysis [50.56875995511431]
マルチモーダルEHRデータから有意な時間的パターンを効率的に抽出するために,CTPD(Cross-Modal Temporal Pattern Discovery)フレームワークを導入する。
提案手法では,時間的セマンティックな埋め込みを生成するためにスロットアテンションを用いて改良された時間的パターン表現を提案する。
論文 参考訳(メタデータ) (2024-11-01T15:54:07Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Robustly Pre-trained Neural Model for Direct Temporal Relation
Extraction [10.832917897850361]
BERT (Bidirectional Representation using Transformer) のいくつかの変種について検討した。
2012 i2b2 時間関係課題データセットのセマンティックな部分集合である直接時間関係データセットを用いて,これらの手法の評価を行った。
結果: 10倍のコーパスを含む事前学習戦略を取り入れたRoBERTaは,F値の絶対スコア(1.00スケール)を0.0864改善し,SVMモデルで達成した従来の最先端性能と比較して誤差率を24%低減した。
論文 参考訳(メタデータ) (2020-04-13T22:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。