論文の概要: EEG2Mel: Reconstructing Sound from Brain Responses to Music
- arxiv url: http://arxiv.org/abs/2207.13845v1
- Date: Thu, 28 Jul 2022 01:06:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 13:03:46.904286
- Title: EEG2Mel: Reconstructing Sound from Brain Responses to Music
- Title(参考訳): EEG2Mel: 音楽に対する脳反応から音を再構築する
- Authors: Adolfo G. Ramirez-Aristizabal, Chris Kello
- Abstract要約: 我々は,音楽刺激を独立して認識・識別できるほどよく再構成することで,従来の手法を改善した。
深層学習モデルは脳波記録の1秒ごとの時間順の音楽刺激スペクトルに基づいて訓練された。
85%の成功率(50%の確率)で聴取者の聴覚刺激の再構成を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Information retrieval from brain responses to auditory and visual stimuli has
shown success through classification of song names and image classes presented
to participants while recording EEG signals. Information retrieval in the form
of reconstructing auditory stimuli has also shown some success, but here we
improve on previous methods by reconstructing music stimuli well enough to be
perceived and identified independently. Furthermore, deep learning models were
trained on time-aligned music stimuli spectrum for each corresponding
one-second window of EEG recording, which greatly reduces feature extraction
steps needed when compared to prior studies. The NMED-Tempo and NMED-Hindi
datasets of participants passively listening to full length songs were used to
train and validate Convolutional Neural Network (CNN) regressors. The efficacy
of raw voltage versus power spectrum inputs and linear versus mel spectrogram
outputs were tested, and all inputs and outputs were converted into 2D images.
The quality of reconstructed spectrograms was assessed by training classifiers
which showed 81% accuracy for mel-spectrograms and 72% for linear spectrograms
(10% chance accuracy). Lastly, reconstructions of auditory music stimuli were
discriminated by listeners at an 85% success rate (50% chance) in a
two-alternative match-to-sample task.
- Abstract(参考訳): 聴覚および視覚刺激に対する脳の反応からの情報検索は、脳波信号記録中に被験者に提示される曲名と画像クラスを分類することで成功を収めている。
聴覚刺激を再構成する形態による情報検索も成功しているが,音楽刺激を独立して認識・識別できるほど十分に再構成することで,従来の方法の改善が図られている。
さらに,脳波記録の1秒毎の時間系列音楽刺激スペクトルに基づいてディープラーニングモデルを学習し,先行研究に比べて特徴抽出ステップを大幅に削減した。
NMED-TempoとNMED-Hindiは、フル長の曲を受動的に聴く参加者のデータセットを使用して、畳み込みニューラルネットワーク(CNN)回帰器を訓練し、検証した。
原電圧対パワースペクトル入力と線形対メル分光図出力の有効性を検証し、全ての入力と出力を2次元画像に変換した。
再構成した分光器の品質は, メル-スペクトログラムの81%, 線形分光器の72%の精度(10%の精度)で評価された。
最後に,2つの交互一致課題において,聴取者の聴力刺激の再現を85%の成功率(50%の確率)で判別した。
関連論文リスト
- Recurrent and Convolutional Neural Networks in Classification of EEG Signal for Guided Imagery and Mental Workload Detection [0.9895793818721335]
本稿では,26名の学生を対象に,高密度アレイ脳波増幅器を用いたガイド画像緩和技術と精神作業負荷に関する調査を行った。
論文 参考訳(メタデータ) (2024-05-27T07:49:30Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Enhancing Affective Representations of Music-Induced EEG through
Multimodal Supervision and latent Domain Adaptation [34.726185927120355]
脳波の重み付けとして音楽信号を用い,その意味的対応を共通の表現空間に投影することを目的としている。
我々は、LSTMに基づくアテンションモデルと、音楽タギングのための事前訓練されたモデルを組み合わせたバイモーダル・フレームワークと、その2つのモードの分布を整列するリバース・ドメイン・ディミネータを併用して、バイモーダル・フレームワークを利用する。
脳波入力クエリに関連音楽サンプルを提供することにより、モダリティのいずれからも、間接的に、教師付き予測を行うことで、感情認識に利用することができる。
論文 参考訳(メタデータ) (2022-02-20T07:32:12Z) - EEG-based Classification of Drivers Attention using Convolutional Neural
Network [0.0]
本研究は、参加者の脳活動に基づいて訓練された注意分類器の性能を比較した。
審美的フィードバック下で得られた生脳波データに基づいて訓練したCNNモデルは,89%の精度を達成できた。
この結果から,CNNおよび生脳波信号は受動的BCIの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-08-23T10:55:52Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - A Novel mapping for visual to auditory sensory substitution [0.0]
視覚情報は 感覚置換装置を通じて オーディオストリームに変換できる
実物に対する視覚的物体認識の結果は平均88.05となった。
論文 参考訳(メタデータ) (2021-06-14T14:14:50Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。