論文の概要: Improving auditory attention decoding performance of linear and
non-linear methods using state-space model
- arxiv url: http://arxiv.org/abs/2004.00910v1
- Date: Thu, 2 Apr 2020 09:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 13:22:46.018290
- Title: Improving auditory attention decoding performance of linear and
non-linear methods using state-space model
- Title(参考訳): 状態空間モデルを用いた線形および非線形法の聴覚注意復号性能の向上
- Authors: Ali Aroudi, Tobias de Taillez, and Simon Doclo
- Abstract要約: 脳波検査の最近の進歩は、単一の脳波記録からターゲット話者を特定することが可能であることを示している。
AAD法は、線形最小二乗関数または非線形ニューラルネットワークに基づいて、脳波記録から出席した音声エンベロープを再構成する。
相関窓の小さい相関係数を用いた状態空間モデルについて検討し,復号性能の向上を図る。
- 参考スコア(独自算出の注目度): 21.40315235087551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying the target speaker in hearing aid applications is crucial to
improve speech understanding. Recent advances in electroencephalography (EEG)
have shown that it is possible to identify the target speaker from single-trial
EEG recordings using auditory attention decoding (AAD) methods. AAD methods
reconstruct the attended speech envelope from EEG recordings, based on a linear
least-squares cost function or non-linear neural networks, and then directly
compare the reconstructed envelope with the speech envelopes of speakers to
identify the attended speaker using Pearson correlation coefficients. Since
these correlation coefficients are highly fluctuating, for a reliable decoding
a large correlation window is used, which causes a large processing delay. In
this paper, we investigate a state-space model using correlation coefficients
obtained with a small correlation window to improve the decoding performance of
the linear and the non-linear AAD methods. The experimental results show that
the state-space model significantly improves the decoding performance.
- Abstract(参考訳): 補聴器応用における対象話者の同定は,音声理解の向上に不可欠である。
脳波検査(EEG)の最近の進歩は、聴覚注意復号法(AAD)を用いて単心室脳波記録からターゲット話者を特定することが可能であることを示している。
AAD法は, 線形最小二乗法あるいは非線形ニューラルネットワークに基づいて, 脳波記録から参加者音声エンベロープを再構成し, パーソン相関係数を用いて参加者話者の音声エンベロープと直接比較することにより, 参加者話者を識別する。
これらの相関係数は非常に変動するため、信頼性の高い復号には大きな相関ウィンドウが用いられ、処理遅延が大きい。
本稿では,相関窓の小さい相関係数を用いた状態空間モデルについて検討し,線形AAD法と非線形AAD法の復号性能を向上させる。
実験の結果, 状態空間モデルにより復号性能が大幅に向上した。
関連論文リスト
- DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - A unified multichannel far-field speech recognition system: combining
neural beamforming with attention based end-to-end model [14.795953417531907]
本稿では,ニューラルビームフォーミングとトランスフォーマーをベースとしたリステン,スペル,アトンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
提案手法は, 強いベースラインに比べて19.26%向上した。
論文 参考訳(メタデータ) (2024-01-05T07:11:13Z) - BDHT: Generative AI Enables Causality Analysis for Mild Cognitive Impairment [34.60961915466469]
軽度認知障害 (MCI) 解析に有効な接続性を推定するために, 階層型トランスフォーマー (BDHT) を用いた脳ディフューザを提案する。
提案手法は,既存手法に比べて精度と頑健性に優れる。
論文 参考訳(メタデータ) (2023-12-14T15:12:00Z) - Learning Repeatable Speech Embeddings Using An Intra-class Correlation
Regularizer [16.716653844774374]
クラス内相関係数(ICC)を用いて埋め込みの再現性を評価する。
我々は、より高い繰り返し性を持つ埋め込みを生成するために、ディープニューラルネットワークを誘導する対照的な損失を補うために、新しい正則化器であるICC正則化器を提案する。
我々は、ICC正規化器を実装し、話者検証、音声スタイル変換、およびディフォニック音声検出のための臨床応用の3つの音声タスクに適用する。
論文 参考訳(メタデータ) (2023-10-25T23:21:46Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Fast and efficient speech enhancement with variational autoencoders [0.0]
変分オートエンコーダに基づく教師なし音声強調は、一般的な教師付き手法と比較して有望な性能を示した。
本稿では,複数のサンプル列を生成するランゲヴィン力学に基づく新しい手法を提案する。
提案手法は, 計算効率と品質向上を効果的に両立させ, 既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-02T09:52:13Z) - Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent
Signals: Application to Hyperspectral Imaging [71.57324258813675]
相互依存信号のデータセットは、列が強い依存を示す行列として定義される。
ニューラルネットワークは、事前に構造として機能し、基礎となる信号相互依存性を明らかにするために使用される。
ディープ・アンローリングとディープ・平衡に基づくアルゴリズムが開発され、高度に解釈可能で簡潔なディープ・ラーニング・ベース・アーキテクチャを形成する。
論文 参考訳(メタデータ) (2022-03-29T21:00:39Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。