論文の概要: PhyAAt: Physiology of Auditory Attention to Speech Dataset
- arxiv url: http://arxiv.org/abs/2005.11577v1
- Date: Sat, 23 May 2020 17:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 03:53:15.476135
- Title: PhyAAt: Physiology of Auditory Attention to Speech Dataset
- Title(参考訳): PhyAAt:音声データセットに対する聴覚注意の生理
- Authors: Nikesh Bajaj, Jes\'us Requena Carri\'on, Francesco Bellotti
- Abstract要約: 自然発話に対する聴覚的注意は複雑な脳プロセスである。
本稿では,聴覚的注意実験から自然音声への生理的信号のデータセットについて述べる。
- 参考スコア(独自算出の注目度): 0.5976833843615385
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Auditory attention to natural speech is a complex brain process. Its
quantification from physiological signals can be valuable to improving and
widening the range of applications of current brain-computer-interface systems,
however it remains a challenging task. In this article, we present a dataset of
physiological signals collected from an experiment on auditory attention to
natural speech. In this experiment, auditory stimuli consisting of
reproductions of English sentences in different auditory conditions were
presented to 25 non-native participants, who were asked to transcribe the
sentences. During the experiment, 14 channel electroencephalogram, galvanic
skin response, and photoplethysmogram signals were collected from each
participant. Based on the number of correctly transcribed words, an attention
score was obtained for each auditory stimulus presented to subjects. A strong
correlation ($p<<0.0001$) between the attention score and the auditory
conditions was found. We also formulate four different predictive tasks
involving the collected dataset and develop a feature extraction framework. The
results for each predictive task are obtained using a Support Vector Machine
with spectral features, and are better than chance level. The dataset has been
made publicly available for further research, along with a python library -
phyaat to facilitate the preprocessing, modeling, and reproduction of the
results presented in this paper. The dataset and other resources are shared on
webpage - https://phyaat.github.io.
- Abstract(参考訳): 自然発話に対する聴覚的注意は複雑な脳プロセスである。
生理的信号からの定量化は、現在の脳-コンピュータ-インタフェースシステムの応用範囲の改善と拡張に有用であるが、それでも難しい課題である。
本稿では,自然発話に対する聴覚的注意実験から収集した生理的信号のデータセットについて述べる。
この実験では、異なる聴覚条件の英語文を再現した聴覚刺激を25名の非ネイティブ参加者に提示し、文章の書き起こしを依頼した。
実験では,14チャンネルの脳波,ガルバニック皮膚反応,光胸腺信号が各被験者から収集された。
正しく書き起こされた単語の数に基づいて,被験者に提示される各聴覚刺激に対して注意スコアが得られた。
注意点と聴覚条件との間には強い相関(p<0.0001$)が認められた。
また、収集したデータセットを含む4つの予測タスクを定式化し、特徴抽出フレームワークを開発する。
各予測タスクの結果は、スペクトル特徴を有するサポートベクターマシンを用いて得られ、チャンスレベルよりも優れている。
このデータセットは、python libraryphyaatとともに、さらなる研究のために公開され、本論文で提示された結果の前処理、モデリング、再現を容易にする。
データセットとその他のリソースはwebページで共有されている。
関連論文リスト
- Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Neural Language Taskonomy: Which NLP Tasks are the most Predictive of
fMRI Brain Activity? [3.186888145772382]
人気のTransformerベースの言語モデルは、テキスト駆動型ブレインエンコーディングで成功している。
本研究では,10種類の自然言語処理タスクで学習した表現からの伝達学習について検討する。
10のタスク表現にまたがる実験は、以下の認知的洞察を提供する。
論文 参考訳(メタデータ) (2022-05-03T10:23:08Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - Learning spectro-temporal representations of complex sounds with
parameterized neural networks [16.270691619752288]
本稿では、Gaborカーネル(Learnable STRF)に基づく特定の分光時間変調を演算するパラメトリゼーションニューラルネットワーク層を提案する。
音声活動検出,話者照合,都市音響分類,ゼブラフィンチ呼出タイプの分類において,この層の予測能力を評価した。
この層は完全に解釈可能であるので、学習した分光時間変調の分布を記述するために定量的な尺度を用いた。
論文 参考訳(メタデータ) (2021-03-12T07:53:47Z) - Comparison of Speaker Role Recognition and Speaker Enrollment Protocol
for conversational Clinical Interviews [9.728371067160941]
エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングし、各タスクに適応し、各アプローチを同じメトリクスで評価します。
結果は面接者の人口統計にも依存せず,その臨床的意義を浮き彫りにした。
論文 参考訳(メタデータ) (2020-10-30T09:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。