論文の概要: How Well Can We Decode Vowels from Auditory EEG -- A Rigorous Cross-Subject Benchmark with Honest Assessment
- arxiv url: http://arxiv.org/abs/2605.00865v1
- Date: Wed, 22 Apr 2026 05:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.476781
- Title: How Well Can We Decode Vowels from Auditory EEG -- A Rigorous Cross-Subject Benchmark with Honest Assessment
- Title(参考訳): 聴覚脳波から母音をいかにうまくデコードできるか -- 厳格なクロスオブジェクトベンチマークと正直な評価
- Authors: Xiaoyang Li,
- Abstract要約: そこで我々は,OpenNeuro ds006104を用いて,聴覚脳波から5種類の母音復号(a,e,i,o,u)を抽出した。
最高のフル機能モデル(XGBoost)は24.5パーセントの精度(20パーセント以下)で、LightGBMの差分エントロピー機能は25.5%である。
- 参考スコア(独自算出の注目度): 3.942402228954563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: EEG based phoneme decoding is promising for brain computer interfaces, but many prior studies rely on within subject evaluation, small cohorts, or weak leakage control. We present a reproducible cross subject benchmark for five class vowel decoding (a, e, i, o, u) from auditory EEG using OpenNeuro ds006104 (16 subjects, 61 channels, 256 Hz). Under strict leave one subject out evaluation with training only normalization and explicit anti leakage checks, we compare 14 pipelines from classical machine learning, deep learning, and Riemannian methods. The best full feature model (XGBoost) reaches 24.5 percent accuracy (chance 20 percent), while differential entropy features with LightGBM reach 25.5 percent in feature specific analysis. After multiple comparison correction, strong pairwise model advantages are limited. Classical methods are competitive with deep models in this low signal regime. Additional analyses (ablation, pairwise vowels, within subject CV, ERP, temporal generalization, and electrode importance) indicate that vowel information is real but weak and mainly carried by early transient auditory responses. We release code and evaluation scripts for full reproducibility.
- Abstract(参考訳): 脳波に基づく音素デコーディングは脳コンピュータインタフェースに有望であるが、多くの先行研究は被験者評価、小さなコホート、弱い漏洩制御に依存している。
聴覚脳波からの5種類の母音復号(a, e, i, o, u)に対して, OpenNeuro ds006104 (16例, 61チャンネル, 256Hz) を用いて再現可能なクロス被験者ベンチマークを行った。
トレーニングのみの正規化と明示的なアンチリークチェックによる評価を厳格に残すため、古典的な機械学習、ディープラーニング、リーマン手法の14のパイプラインを比較した。
最高のフル機能モデル(XGBoost)は24.5パーセントの精度(20%以下)で、LightGBMの差分エントロピー機能は25.5%である。
複数の比較補正の後、強いペアワイズモデルの利点は限定される。
古典的な手法は、この低信号方式のディープモデルと競合する。
追加分析 (アブレーション, 対母音, 対象CV, ERP, 時間的一般化, 電極重要度) により, 母音情報は真だが弱く, 主に初期過渡的な聴覚応答によってもたらされることが示された。
完全な再現性のためのコードと評価スクリプトをリリースします。
関連論文リスト
- Elementary, My Dear Watson: Non-Invasive Neural Keyword Spotting in the LibriBrain Dataset [1.497166779417398]
キーワードスポッティング(英: Keywords Spotting, KWS)は、脳とコンピュータのインターフェイスのための、プライバシーに配慮した中間タスクである。
我々は、単語レベルのデータローダとColab対応のチュートリアルを備えたpnplライブラリの更新版をリリースした。
論文 参考訳(メタデータ) (2025-10-23T22:44:50Z) - Reproducible Machine Learning-based Voice Pathology Detection: Introducing the Pitch Difference Feature [1.7779568951268254]
本稿では,現在公開されているSaarbr"ucken Voice Databaseを用いた音声病理診断手法を提案する。
機械学習(ML)アルゴリズムを6つ評価する - サポートベクターマシン、kネアレスト隣人、ナイーブベイズ、決定木、ランダムフォレスト、AdaBoost。
アプローチは, 女性, 男性, 合計で85.61%, 84.69%, および85.22%であった。
論文 参考訳(メタデータ) (2024-10-14T14:17:52Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。