論文の概要: Lightweight Diffusion-based Framework for Online Imagined Speech Decoding in Aphasia
- arxiv url: http://arxiv.org/abs/2511.07920v1
- Date: Wed, 12 Nov 2025 01:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.543806
- Title: Lightweight Diffusion-based Framework for Online Imagined Speech Decoding in Aphasia
- Title(参考訳): 失語症におけるオンライン音声復号のための軽量拡散型フレームワーク
- Authors: Eunyeong Ko, Soowon Kim, Ha-Na Jo,
- Abstract要約: 拡散に基づくニューラルデコーディングフレームワークは、失語症患者のリアルタイムな仮想音声分類に最適化されている。
二重基準早期停止戦略により、限られたキャリブレーションデータの下での迅速な収束が可能となった。
提案するフレームワークは,脳-コンピュータインタフェースを臨床コミュニケーション支援に向けて翻訳する。
- 参考スコア(独自算出の注目度): 1.299941371793082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A diffusion-based neural decoding framework optimized for real-time imagined speech classification in individuals with aphasia. The system integrates a lightweight conditional diffusion encoder and convolutional classifier trained using subject-specific EEG data acquired from a Korean-language paradigm. A dual-criterion early stopping strategy enabled rapid convergence under limited calibration data, while dropout regularization and grouped temporal convolutions ensured stable generalization. During online operation, continuous EEG streams were processed in two-second sliding windows to generate class probabilities that dynamically modulated visual and auditory feedback according to decoding confidence. Across twenty real-time trials, the framework achieved 65% top-1 and 70% top-2 accuracy, outperforming offline evaluation (50% top-1). These results demonstrate the feasibility of deploying diffusion-based EEG decoding under practical clinical constraints, maintaining reliable performance despite environmental variability and minimal preprocessing. The proposed framework advances the translation of imagined speech brain-computer interfaces toward clinical communication support for individuals with severe expressive language impairment.
- Abstract(参考訳): 失語症者のリアルタイム音声分類に最適化された拡散型ニューラルデコードフレームワーク
本システムは,韓国語パラダイムから取得した主題固有の脳波データを用いて学習した,軽量な条件拡散エンコーダと畳み込み分類器を統合する。
二重基準の早期停止戦略により、限られたキャリブレーションデータの下での迅速な収束が可能となり、一方、ドロップアウト正規化とグループ化された時間的畳み込みにより安定な一般化が保証された。
オンライン操作中、連続脳波ストリームは2秒間スライディングウィンドウで処理され、復号信頼度に応じて視覚と聴覚のフィードバックを動的に変調するクラス確率が生成される。
20回のリアルタイムトライアルで、このフレームワークは65%のトップ1と70%のトップ2の精度を達成し、オフライン評価(50%のトップ1)を上回った。
これらの結果は, 環境変動やプリプロセッシングの最小化に拘わらず, 実用的臨床制約下での拡散型脳波デコーディングの実現可能性を示すものである。
提案手法は, 言語障害の重度者に対する臨床コミュニケーション支援に向けて, 仮想脳-コンピュータインタフェースの翻訳を推し進めるものである。
関連論文リスト
- JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention [47.304088800992474]
本稿では,JEPA(Joint-Embedding Predictive Architecture)とDAAM(Dedentity Adaptive Attention Mechanism)を組み合わせた2段階の自己組織化フレームワークを提案する。
Stage1はJEPAとDAAMを使用して、波形再構成から完全に切り離された潜在空間におけるマスク付き予測を通じてセマンティックオーディオ機能を学ぶ。
Stage2は、これらの表現をFinite Scalar Quantization (FSQ)とMix-radix Packingスキームを用いた効率的なトークン化に利用し、次いでHiFi-GANデコーダを用いた高忠実な波形再構成を行う。
論文 参考訳(メタデータ) (2025-12-08T05:01:51Z) - The Locally Deployable Virtual Doctor: LLM Based Human Interface for Automated Anamnesis and Database Conversion [0.0]
MedChatは、AI支援臨床解剖のための、ローカルにデプロイ可能な仮想医師フレームワークである。
既存のクラウドベースシステムとは異なり、この研究は、完全にオフラインで、ローカルにデプロイ可能なLCM拡散フレームワークが臨床解剖に有効であることを示す。
論文 参考訳(メタデータ) (2025-11-23T22:12:35Z) - On the Difficulty of Token-Level Modeling of Dysfluency and Fluency Shaping Artifacts [21.253980895817634]
障害や流布形成のアーティファクトはしばしば見過ごされ、臨床および研究価値が制限された非バーベティム転写をもたらす。
そこで本研究では, 転写中の特殊トークンとして, 周波数変化や周波数変化を復号化するためのパラメータ効率適応法を提案する。
以上の結果から,Dyfluency-aware ASRに対する軽量適応法の有効性が示唆された。
論文 参考訳(メタデータ) (2025-11-18T19:33:29Z) - Toward Robust EEG-based Intention Decoding during Misarticulated Speech in Aphasia [0.0]
失語症は言語生産の障害により言語コミュニケーションを厳しく制限し、しばしばスピーチの試行中に頻繁に誤聴を引き起こす。
脳-コンピュータインタフェース技術への関心が高まりつつあるにもかかわらず、失語症患者に適した脳波ベースのコミュニケーション支援システムの開発には、比較的注意が払われていない。
論文 参考訳(メタデータ) (2025-11-11T06:49:44Z) - Temporal-Aware Iterative Speech Model for Dementia Detection [0.0]
音声を用いた認知症自動検出の現在の手法は,静的,時間に依存しない特徴や集約された言語コンテンツに依存している。
本稿では,認知症検出のための自然発話を動的にモデル化するテンポラル・アウェア・イテレーティブ・フレームワークであるTAI-Speechを紹介する。
私たちの研究は、より柔軟で堅牢な認知評価ソリューションを提供し、生のオーディオのダイナミクスを直接操作します。
論文 参考訳(メタデータ) (2025-09-26T01:56:07Z) - Improved Intelligibility of Dysarthric Speech using Conditional Flow Matching [0.0]
失語症(Dysarthria)は、言語機能障害の1つ。
これにより、頑健な顎関節-正則音声変換技術の開発が必要とされる。
論文 参考訳(メタデータ) (2025-06-19T08:24:17Z) - CodeBrain: Towards Decoupled Interpretability and Multi-Scale Architecture for EEG Foundation Model [52.466542039411515]
EEGファウンデーションモデル(EFM)は、タスク固有のモデルのスケーラビリティ問題に対処するために登場した。
このギャップを埋めるために設計された2段階のEMFであるCodeBrainを紹介します。
第1段階では、異種時間・周波数の脳波信号を離散トークンに分解するTFDual-Tokenizerを導入する。
第2段階では、構造化されたグローバル畳み込みとスライディングウインドウの注意を結合したマルチスケールEEGSSMアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-06-10T17:20:39Z) - Dysfluent WFST: A Framework for Zero-Shot Speech Dysfluency Transcription and Detection [5.512072120303165]
Dysfluent-WFSTはゼロショットデコーダで、音素を同時に書き起こし、逆流を検出する。
模擬および実音声データにおける音素誤り率とディフルエンシ検出の両面での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-22T08:02:50Z) - BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [48.20672677492805]
現在のEEG/MEG-to-textデコーディングシステムには3つの重要な制限がある。
BrainECHOは、分離された表現学習を利用する多段階フレームワークである。
BrainECHOは文、セッション、主題に依存しない条件をまたいだ堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。