論文の概要: Speaker Identification using EEG
- arxiv url: http://arxiv.org/abs/2003.04733v1
- Date: Sat, 7 Mar 2020 04:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 19:38:34.036702
- Title: Speaker Identification using EEG
- Title(参考訳): 脳波を用いた話者識別
- Authors: Gautam Krishna, Co Tran, Mason Carnahan, Ahmed Tewfik
- Abstract要約: 話者識別システムの性能は背景雑音の有無で劣化する。
本稿では,脳波の特徴が,背景雑音の有無と存在下で動作している話者識別システムの性能向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 3.5786621294068377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we explore speaker identification using electroencephalography
(EEG) signals. The performance of speaker identification systems degrades in
presence of background noise, this paper demonstrates that EEG features can be
used to enhance the performance of speaker identification systems operating in
presence and absence of background noise. The paper further demonstrates that
in presence of high background noise, speaker identification system using only
EEG features as input demonstrates better performance than the system using
only acoustic features as input.
- Abstract(参考訳): 本稿では脳波信号を用いた話者識別について検討する。
本稿では,背景雑音の有無で話者識別システムの性能が低下し,脳波の特徴が背景雑音の有無で動作している話者識別システムの性能向上に有効であることを示す。
さらに,背景雑音の存在下では,脳波のみを入力として使用する話者識別システムが,音響特徴のみを入力として使用するシステムよりも優れた性能を示すことを示す。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial
Attention Detection [49.196182908826565]
AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。
現在のアプローチは主に、画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。
本稿では、入力として音声刺激を必要としないAADのための動的グラフ自己蒸留(DGSD)手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T13:43:46Z) - Meta-Learning Framework for End-to-End Imposter Identification in Unseen
Speaker Recognition [4.143603294943441]
未確認話者認識における不適切な識別のための固定しきい値(EERメトリックを用いた計算)を用いた一般化の問題を示す。
次に、より優れた性能を実現するために、頑健な話者特異的しきい値設定手法を導入する。
提案手法の有効性をVoxCeleb1, VCTK, FFSVC 2022データセットで示し, ベースラインを最大10%上回った。
論文 参考訳(メタデータ) (2023-06-01T17:49:58Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Constrained Variational Autoencoder for improving EEG based Speech
Recognition Systems [3.5786621294068377]
本稿では、新しい制約付き損失関数を持つリカレントニューラルネットワーク(RNN)に基づく変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 生の脳波特徴から生成された脳波特徴を用いて, 連続的および孤立的な音声認識システムを構築し, 実験を行った。
論文 参考訳(メタデータ) (2020-06-01T06:03:50Z) - Improving EEG based continuous speech recognition using GAN [3.5786621294068377]
我々は、GAN(Generative Adversarial Network)を用いて、生脳波の特徴からより有意義な脳波(EEG)特徴を生成できることを実証した。
提案手法は付加的なセンサ情報を用いることなく実装することができるが,[1]著者らは,脳波に基づく連続音声認識システムの性能向上のために,音響情報や調音情報などの付加的特徴を用いている。
論文 参考訳(メタデータ) (2020-05-29T06:11:33Z) - Understanding effect of speech perception in EEG based speech
recognition systems [3.5786621294068377]
音声と平行に記録された脳波信号を用いて、孤立的かつ連続的な音声認識を行う。
我々は、より堅牢な脳波に基づく音声認識システムを設計するために、この音声認識成分を脳波信号から切り離すことが可能かどうかを検討する。
論文 参考訳(メタデータ) (2020-05-29T05:56:09Z) - Predicting Different Acoustic Features from EEG and towards direct
synthesis of Audio Waveform from EEG [3.5786621294068377]
著者らは脳波(EEG)の特徴から音声を合成するための予備的な結果を提供した。
深層学習モデルは生の脳波波形信号を入力とし、直接出力として音声波形を生成する。
本稿では,音声知覚・生成過程における非侵襲的脳波信号と音響的特徴の関連性について述べる。
論文 参考訳(メタデータ) (2020-05-29T05:50:03Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。