論文の概要: Ensemble Machine Learning Model for Inner Speech Recognition: A Subject-Specific Investigation
- arxiv url: http://arxiv.org/abs/2412.17824v1
- Date: Mon, 09 Dec 2024 16:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-29 08:29:29.959341
- Title: Ensemble Machine Learning Model for Inner Speech Recognition: A Subject-Specific Investigation
- Title(参考訳): 内的音声認識のためのアンサンブル機械学習モデル:主観的調査
- Authors: Shahamat Mustavi Tasin, Muhammad E. H. Chowdhury, Shona Pedersen, Malek Chabbouh, Diala Bushnaq, Raghad Aljindi, Saidul Kabir, Anwarul Hasan,
- Abstract要約: 本研究では,128チャネル表面の脳波信号を用いて内部音声を分類する機械学習手法を開発した。
6つのMLアルゴリズムの性能を評価し,アンサンブルモデルを提案する。
提案手法は,脳波信号を用いた内部音声の分類において有望であることを示す。
- 参考スコア(独自算出の注目度): 0.22198209072577352
- License:
- Abstract: Inner speech recognition has gained enormous interest in recent years due to its applications in rehabilitation, developing assistive technology, and cognitive assessment. However, since language and speech productions are a complex process, for which identifying speech components has remained a challenging task. Different approaches were taken previously to reach this goal, but new approaches remain to be explored. Also, a subject-oriented analysis is necessary to understand the underlying brain dynamics during inner speech production, which can bring novel methods to neurological research. A publicly available dataset, Thinking Out Loud Dataset, has been used to develop a Machine Learning (ML)-based technique to classify inner speech using 128-channel surface EEG signals. The dataset is collected on a Spanish cohort of ten subjects while uttering four words (Arriba, Abajo, Derecha, and Izquierda) by each participant. Statistical methods were employed to detect and remove motion artifacts from the Electroencephalography (EEG) signals. A large number (191 per channel) of time-, frequency- and time-frequency-domain features were extracted. Eight feature selection algorithms are explored, and the best feature selection technique is selected for subsequent evaluations. The performance of six ML algorithms is evaluated, and an ensemble model is proposed. Deep Learning (DL) models are also explored, and the results are compared with the classical ML approach. The proposed ensemble model, by stacking the five best logistic regression models, generated an overall accuracy of 81.13% and an F1 score of 81.12% in the classification of four inner speech words using surface EEG signals. The proposed framework with the proposed ensemble of classical ML models shows promise in the classification of inner speech using surface EEG signals.
- Abstract(参考訳): 内的音声認識は、リハビリテーション、補助技術開発、認知評価に応用されているため、近年で大きな関心を集めている。
しかし、言語と音声の合成は複雑なプロセスであるため、音声成分の同定は依然として難しい課題である。
この目標を達成するために、これまで異なるアプローチが取られてきたが、新しいアプローチはまだ検討されていない。
また、内声発生時の脳のダイナミクスを理解するためには、主観的分析が必要であるため、神経学的研究に新しい方法をもたらす可能性がある。
公開されているデータセットであるThinking Out Loud Datasetは、128チャンネルの表面EEG信号を使用して内部音声を分類する機械学習(ML)ベースの技術の開発に使用されている。
データセットは、10人の被験者からなるスペイン語コホートで収集され、各参加者から4つの単語(Arriba、Abajo、Derecha、Izquierda)を発声する。
脳波(EEG)信号から運動アーティファクトを検出・除去するために統計的手法が用いられた。
時間・周波数・時間・周波数領域の特徴を多数抽出した(チャネル当たり191)。
8つの特徴選択アルゴリズムを探索し,その後の評価に最適な特徴選択手法を選択する。
6つのMLアルゴリズムの性能を評価し,アンサンブルモデルを提案する。
ディープラーニング(DL)モデルについても検討し,従来のML手法と比較した。
提案したアンサンブルモデルは、5つの最適なロジスティック回帰モデルを積み重ねることで、表面脳波信号を用いた4つの内声単語の分類において、全体の81.13%の精度とF1スコアの81.12%の精度を生み出した。
古典的MLモデルのアンサンブルを用いた提案手法は,脳波信号を用いた内部音声の分類において有望であることを示す。
関連論文リスト
- AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - ML-ASPA: A Contemplation of Machine Learning-based Acoustic Signal
Processing Analysis for Sounds, & Strains Emerging Technology [0.0]
本稿では,機械学習(ML)とディープラーニングに焦点をあてて,音響分野における最近の進歩と変革の可能性を探る。
MLはデータ駆動のアプローチを採用し、機能と望ましいラベルやアクション、さらには機能自体の複雑な関係を明らかにする。
機械学習のトレーニングデータの拡張への応用により、人間の発話や残響のような複雑な音響現象を解明するモデルが発見される。
論文 参考訳(メタデータ) (2023-12-18T03:04:42Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Evaluating raw waveforms with deep learning frameworks for speech
emotion recognition [0.0]
特徴抽出段階なしで生のオーディオファイルをディープニューラルネットワークに直接供給するモデルを表現する。
EMO-DB、RAVDESS、TESS、CREMA、SAVEE、TESS+RAVDESSの6つのデータセットを使用します。
提案モデルは,CNNモデルによるEMO-DBの精度90.34%,RAVDESSの精度90.42%,LSTMモデルによるTESSの精度99.48%,CNNモデルによるCREMAの精度69.72%,CNNモデルによるSAVEEの精度85.76%,の精度90.34%を実行する。
論文 参考訳(メタデータ) (2023-07-06T07:27:59Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Analyzing analytical methods: The case of phonology in neural models of
spoken language [44.00588930401902]
本稿では,音声言語のニューラルネットワークモデルにおける音韻表現の事例について検討する。
我々は2つの一般的な分析手法を用いて、音素配列と音素シーケンスを符号化するニューラルアクティベーションパターンの程度を定量化する。
論文 参考訳(メタデータ) (2020-04-15T13:04:15Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。