論文の概要: Knowing What to Listen to: Early Attention for Deep Speech
Representation Learning
- arxiv url: http://arxiv.org/abs/2009.01822v1
- Date: Thu, 3 Sep 2020 17:40:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 07:16:42.265753
- Title: Knowing What to Listen to: Early Attention for Deep Speech
Representation Learning
- Title(参考訳): 何を聴くかを知る: 音声表現の深層学習への早期の注意
- Authors: Amirhossein Hajavi, Ali Etemad
- Abstract要約: 本稿では,音声信号のためのファイングラファレンス・アーリーアテンション(FEFA)を提案する。
このモデルは、周波数ビンほど小さな情報アイテムに焦点を合わせることができる。
話者認識と音声感情認識の2つの一般的な課題について,提案モデルの評価を行った。
- 参考スコア(独自算出の注目度): 25.71206255965502
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep learning techniques have considerably improved speech processing in
recent years. Speech representations extracted by deep learning models are
being used in a wide range of tasks such as speech recognition, speaker
recognition, and speech emotion recognition. Attention models play an important
role in improving deep learning models. However current attention mechanisms
are unable to attend to fine-grained information items. In this paper we
propose the novel Fine-grained Early Frequency Attention (FEFA) for speech
signals. This model is capable of focusing on information items as small as
frequency bins. We evaluate the proposed model on two popular tasks of speaker
recognition and speech emotion recognition. Two widely used public datasets,
VoxCeleb and IEMOCAP, are used for our experiments. The model is implemented on
top of several prominent deep models as backbone networks to evaluate its
impact on performance compared to the original networks and other related work.
Our experiments show that by adding FEFA to different CNN architectures,
performance is consistently improved by substantial margins, even setting a new
state-of-the-art for the speaker recognition task. We also tested our model
against different levels of added noise showing improvements in robustness and
less sensitivity compared to the backbone networks.
- Abstract(参考訳): 近年,ディープラーニング技術は音声処理を大幅に改善している。
ディープラーニングモデルによって抽出された音声表現は、音声認識、話者認識、音声感情認識といった幅広いタスクで使用されている。
注意モデルは、ディープラーニングモデルを改善する上で重要な役割を果たす。
しかし、現在の注意機構は、きめ細かい情報項目には対応できない。
本稿では,音声信号に対するファイングラファイド早期周波数注意(FEFA)を提案する。
このモデルは、周波数ビンほど小さな情報アイテムにフォーカスすることができる。
話者認識と音声感情認識の2つのタスクにおいて提案したモデルを評価する。
実験にはVoxCelebとIEMOCAPという2つの広く使われている公開データセットが使用されている。
このモデルは、バックボーンネットワークとしていくつかの顕著なディープモデル上に実装され、元のネットワークや他の関連する作業と比較してパフォーマンスへの影響を評価する。
我々の実験は、異なるCNNアーキテクチャにFEFAを追加することで、話者認識タスクに新しい最先端のタスクを設定することさえも、かなりのマージンでパフォーマンスが一貫して改善されることを示します。
また,ロバスト性が向上し,バックボーンネットワークに比べて感度が低下する,さまざまなノイズレベルに対するモデルもテストした。
関連論文リスト
- A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech
Enhancement [16.900731393703648]
自己教師付き学習モデルは、特定の音声タスクに非常に効果的であることが判明した。
本稿では,単一チャンネル音声強調におけるSSL表現の利用について検討する。
論文 参考訳(メタデータ) (2024-03-03T02:05:17Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Speaker Recognition in Realistic Scenario Using Multimodal Data [4.373374186532439]
マルチモーダルシステムにおいて,顔と声の関節表現を学習するための2分岐ネットワークを提案する。
提案手法をVoxCeleb$1$という大規模オーディオ視覚データセット上で評価した。
論文 参考訳(メタデータ) (2023-02-25T09:11:09Z) - A Systematic Comparison of Phonetic Aware Techniques for Speech
Enhancement [20.329872147913584]
音声強調モデルにおける音声情報の統合方法の比較を行った。
異なる音声コンテンツモデルと様々な特徴注入技術が性能向上に与える影響を観察する。
論文 参考訳(メタデータ) (2022-06-22T12:00:50Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T21:21:23Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。