論文の概要: Lightweight Diffusion-based Framework for Online Imagined Speech Decoding in Aphasia
- arxiv url: http://arxiv.org/abs/2511.07920v1
- Date: Wed, 12 Nov 2025 01:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.543806
- Title: Lightweight Diffusion-based Framework for Online Imagined Speech Decoding in Aphasia
- Title(参考訳): 失語症におけるオンライン音声復号のための軽量拡散型フレームワーク
- Authors: Eunyeong Ko, Soowon Kim, Ha-Na Jo,
- Abstract要約: 拡散に基づくニューラルデコーディングフレームワークは、失語症患者のリアルタイムな仮想音声分類に最適化されている。
二重基準早期停止戦略により、限られたキャリブレーションデータの下での迅速な収束が可能となった。
提案するフレームワークは,脳-コンピュータインタフェースを臨床コミュニケーション支援に向けて翻訳する。
- 参考スコア(独自算出の注目度): 1.299941371793082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A diffusion-based neural decoding framework optimized for real-time imagined speech classification in individuals with aphasia. The system integrates a lightweight conditional diffusion encoder and convolutional classifier trained using subject-specific EEG data acquired from a Korean-language paradigm. A dual-criterion early stopping strategy enabled rapid convergence under limited calibration data, while dropout regularization and grouped temporal convolutions ensured stable generalization. During online operation, continuous EEG streams were processed in two-second sliding windows to generate class probabilities that dynamically modulated visual and auditory feedback according to decoding confidence. Across twenty real-time trials, the framework achieved 65% top-1 and 70% top-2 accuracy, outperforming offline evaluation (50% top-1). These results demonstrate the feasibility of deploying diffusion-based EEG decoding under practical clinical constraints, maintaining reliable performance despite environmental variability and minimal preprocessing. The proposed framework advances the translation of imagined speech brain-computer interfaces toward clinical communication support for individuals with severe expressive language impairment.
- Abstract(参考訳): 失語症者のリアルタイム音声分類に最適化された拡散型ニューラルデコードフレームワーク
本システムは,韓国語パラダイムから取得した主題固有の脳波データを用いて学習した,軽量な条件拡散エンコーダと畳み込み分類器を統合する。
二重基準の早期停止戦略により、限られたキャリブレーションデータの下での迅速な収束が可能となり、一方、ドロップアウト正規化とグループ化された時間的畳み込みにより安定な一般化が保証された。
オンライン操作中、連続脳波ストリームは2秒間スライディングウィンドウで処理され、復号信頼度に応じて視覚と聴覚のフィードバックを動的に変調するクラス確率が生成される。
20回のリアルタイムトライアルで、このフレームワークは65%のトップ1と70%のトップ2の精度を達成し、オフライン評価(50%のトップ1)を上回った。
これらの結果は, 環境変動やプリプロセッシングの最小化に拘わらず, 実用的臨床制約下での拡散型脳波デコーディングの実現可能性を示すものである。
提案手法は, 言語障害の重度者に対する臨床コミュニケーション支援に向けて, 仮想脳-コンピュータインタフェースの翻訳を推し進めるものである。
関連論文リスト
- Toward Robust EEG-based Intention Decoding during Misarticulated Speech in Aphasia [0.0]
失語症は言語生産の障害により言語コミュニケーションを厳しく制限し、しばしばスピーチの試行中に頻繁に誤聴を引き起こす。
脳-コンピュータインタフェース技術への関心が高まりつつあるにもかかわらず、失語症患者に適した脳波ベースのコミュニケーション支援システムの開発には、比較的注意が払われていない。
論文 参考訳(メタデータ) (2025-11-11T06:49:44Z) - Temporal-Aware Iterative Speech Model for Dementia Detection [0.0]
音声を用いた認知症自動検出の現在の手法は,静的,時間に依存しない特徴や集約された言語コンテンツに依存している。
本稿では,認知症検出のための自然発話を動的にモデル化するテンポラル・アウェア・イテレーティブ・フレームワークであるTAI-Speechを紹介する。
私たちの研究は、より柔軟で堅牢な認知評価ソリューションを提供し、生のオーディオのダイナミクスを直接操作します。
論文 参考訳(メタデータ) (2025-09-26T01:56:07Z) - Improved Intelligibility of Dysarthric Speech using Conditional Flow Matching [0.0]
失語症(Dysarthria)は、言語機能障害の1つ。
これにより、頑健な顎関節-正則音声変換技術の開発が必要とされる。
論文 参考訳(メタデータ) (2025-06-19T08:24:17Z) - CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。
このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。
第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。
第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-06-10T17:20:39Z) - Dysfluent WFST: A Framework for Zero-Shot Speech Dysfluency Transcription and Detection [5.512072120303165]
Dysfluent-WFSTはゼロショットデコーダで、音素を同時に書き起こし、逆流を検出する。
模擬および実音声データにおける音素誤り率とディフルエンシ検出の両面での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-22T08:02:50Z) - BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [48.20672677492805]
現在のEEG/MEG-to-textデコーディングシステムには3つの重要な制限がある。
BrainECHOは、分離された表現学習を利用する多段階フレームワークである。
BrainECHOは文、セッション、主題に依存しない条件をまたいだ堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。