論文の概要: CIPHER: Conformer-based Inference of Phonemes from High-density EEG
- arxiv url: http://arxiv.org/abs/2604.02362v1
- Date: Sun, 22 Mar 2026 12:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.531326
- Title: CIPHER: Conformer-based Inference of Phonemes from High-density EEG
- Title(参考訳): CIPHER:高密度脳波を用いたコンバータによる音素推定
- Authors: Varshith Madishetty,
- Abstract要約: 我々はCIPHER(高密度脳波表現からの音素のコンフォーマーベース推論)を提示する。
二分音節タスクは、ほぼシーリングのパフォーマンスに到達するが、非常に難易度が高い。
我々はこの研究を、EEG-to-textシステムではなく、ベンチマークと機能比較研究として位置付ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding speech information from scalp EEG remains difficult due to low SNR and spatial blurring. We present CIPHER (Conformer-based Inference of Phonemes from High-density EEG Representations), a dual-pathway model using (i) ERP features and (ii) broadband DDA coefficients. On OpenNeuro ds006104 (24 participants, two studies with concurrent TMS), binary articulatory tasks reach near-ceiling performance but are highly confound-vulnerable (acoustic onset separability and TMS-target blocking). On the primary 11-class CVC phoneme task under full Study 2 LOSO (16 held-out subjects), performance is substantially lower (real-word WER: ERP 0.671 +/- 0.080, DDA 0.688 +/- 0.096, indicating limited fine-grained discriminability. We therefore position this work as a benchmark and feature-comparison study rather than an EEG-to-text system, and we constrain neural-representation claims to confound-controlled evidence.
- Abstract(参考訳): 頭皮脳波からの音声情報の復号は、低SNRと空間的ぼかしのため難しいままである。
両経路モデルを用いたCIPHER(高密度脳波表現からの音声のコンフォーマーベース推論)を提案する。
(i)ERPの特徴と特徴
(二)ブロードバンドDDA係数
OpenNeuro ds006104(24名、同時TMSによる2つの研究)では、二分音節タスクは概注性能に達するが、高い共起性(音響オンセット分離性とTMSターゲットブロッキング)を持つ。
フルスタディ2 LOSO(16名)の下での11種類のCVC音素タスクでは、性能が著しく低い(実単語WER: ERP 0.671 +/- 0.080, DDA 0.688 +/- 0.096)。
そこで我々は、この研究を、脳波からテキストへのシステムではなく、ベンチマークと特徴比較研究として位置づける。
関連論文リスト
- Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis [14.922065513695294]
Resp-Agent(Resp-Agent)は、アクティブアドリキュラムエージェント(Thinker-A$2$CA)によって編成された自律型マルチモーダルシステムである。
表現ギャップに対処するため,EHRデータをストラテジックグローバルアテンションを介して音声トークンで織り込むModality-Weaving Diagnoserを導入する。
データギャップに対処するために,テキストのみのLarge Language Model (LLM) をモダリティインジェクションにより適応させるフローマッチングジェネレータを設計する。
論文 参考訳(メタデータ) (2026-02-16T14:48:24Z) - DIN-CTS: Low-Complexity Depthwise-Inception Neural Network with Contrastive Training Strategy for Deepfake Speech Detection [35.92231189181208]
コントラスト学習戦略(CTS)を訓練した低複雑さDIN(Depthwise-Inception Network)に基づくディープフェイク音声検出(DSD)のためのディープニューラルネットワークアプローチを提案する。
提案システムを評価するため,ASVspoof 2019 LAのベンチマークデータセットについて広範な実験を行った。
提案システムは,ASVspoof 2019 LAチャレンジにおけるシングルシステム提案よりも優れており,リアルタイムアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2025-02-27T16:09:04Z) - Robust Persian Digit Recognition in Noisy Environments Using Hybrid CNN-BiGRU Model [1.5566524830295307]
本研究は,雑音条件下でのペルシャ文字の孤立認識(ゼロから9)に対処する。
残差畳み込みニューラルネットワークと双方向ゲートユニット(BiGRU)を組み合わせたハイブリッドモデルを提案する。
実験の結果、モデルの有効性が98.53%、96.10%、トレーニング、検証、テストセットにおける95.92%の精度で証明された。
論文 参考訳(メタデータ) (2024-12-14T15:11:42Z) - Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。
ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。
DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文 参考訳(メタデータ) (2024-07-03T08:33:39Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。