論文の概要: Correlation based Multi-phasal models for improved imagined speech EEG
recognition
- arxiv url: http://arxiv.org/abs/2011.02195v1
- Date: Wed, 4 Nov 2020 09:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 23:16:18.881099
- Title: Correlation based Multi-phasal models for improved imagined speech EEG
recognition
- Title(参考訳): 相関に基づくマルチファサールモデルによる音声の脳波認識の改善
- Authors: Rini A Sharon, Hema A Murthy
- Abstract要約: 本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
- 参考スコア(独自算出の注目度): 22.196642357767338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translation of imagined speech electroencephalogram(EEG) into human
understandable commands greatly facilitates the design of naturalistic brain
computer interfaces. To achieve improved imagined speech unit classification,
this work aims to profit from the parallel information contained in
multi-phasal EEG data recorded while speaking, imagining and performing
articulatory movements corresponding to specific speech units. A bi-phase
common representation learning module using neural networks is designed to
model the correlation and reproducibility between an analysis phase and a
support phase. The trained Correlation Network is then employed to extract
discriminative features of the analysis phase. These features are further
classified into five binary phonological categories using machine learning
models such as Gaussian mixture based hidden Markov model and deep neural
networks. The proposed approach further handles the non-availability of
multi-phasal data during decoding. Topographic visualizations along with
result-based inferences suggest that the multi-phasal correlation modelling
approach proposed in the paper enhances imagined-speech EEG recognition
performance.
- Abstract(参考訳): 人間の理解可能なコマンドへの音声脳波(EEG)の変換は、自然主義的な脳コンピューターインタフェースの設計を大いに促進する。
本研究は,音声単位の分類を改善するために,特定の音声単位に対応する音声の動きを発話・想像・実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることを目的とする。
ニューラルネットワークを用いた二相共通表現学習モジュールは、分析フェーズと支援フェーズとの相関と再現性をモデル化する。
次に、訓練された相関ネットワークを用いて分析相の判別特徴を抽出する。
これらの特徴は、ガウス混合に基づく隠れマルコフモデルやディープニューラルネットワークのような機械学習モデルを用いて、さらに5つのバイナリ音韻学カテゴリに分類される。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
本論文で提案するマルチファサール相関モデルにより,脳波の認識性能が向上することが示唆された。
関連論文リスト
- Brain-Driven Representation Learning Based on Diffusion Model [25.375490061512]
本研究では,拡散確率モデル(DDPM)について検討した。
条件付きオートエンコーダとDDPMを併用することで、我々の新しいアプローチは従来の機械学習アルゴリズムよりもかなり優れています。
本研究は,音声関連脳波信号解析のための高度な計算手法として,DDPMの可能性を強調した。
論文 参考訳(メタデータ) (2023-11-14T05:59:58Z) - Mapping EEG Signals to Visual Stimuli: A Deep Learning Approach to Match
vs. Mismatch Classification [28.186129896907694]
ビデオクリップが脳波信号の興奮応答を誘導するかどうかを分類する「マッチ-vs-mismatch」深層学習モデルを提案する。
提案手法は, 未知の被写体に対して最も精度の高いモデルを実現することができることを示す。
これらの結果は、ニューラル記録に基づくビデオ再構成の開発を促進する可能性がある。
論文 参考訳(メタデータ) (2023-09-08T06:37:25Z) - Canonical Cortical Graph Neural Networks and its Application for Speech
Enhancement in Future Audio-Visual Hearing Aids [0.726437825413781]
本稿では, 層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせた, より生物学的に妥当な自己教師型機械学習手法を提案する。
この手法は、よりクリーンなオーディオ再構成とエネルギー効率の両方を考慮した最近の最先端の結果より優れており、スモーザーでスモーザーなニューロンの発火速度分布によって説明されている。
論文 参考訳(メタデータ) (2022-06-06T15:20:07Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Directed Acyclic Graph Network for Conversational Emotion Recognition [12.191046814462853]
本稿では,会話中の固有構造をより良くモデル化するために,有向非巡回グラフ(DAG)を用いて発話を符号化する新しいアイデアを提案する。
DAG-ERCは、長距離会話の背景と近くのコンテキストの間の情報の流れをモデル化する、より直感的な方法を提供する。
比較のためのベースラインとして,最先端のモデルを用いた4つのERCベンチマークで実験を行った。
論文 参考訳(メタデータ) (2021-05-27T01:51:37Z) - Multi-modal Automated Speech Scoring using Attention Fusion [46.94442359735952]
本稿では,非母国英語話者の自発音声の自動評価のための,多モーダルなエンドツーエンドニューラルアプローチを提案する。
我々は、スペクトルや転写から音響的および語彙的手がかりを符号化するために、双方向のリカレント畳み込みニューラルネットワークと双方向長短期記憶ニューラルネットワークを用いる。
語彙と音響の両方への注意が組み合わさってシステム全体の性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2020-05-17T07:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。