論文の概要: Deep Representation Learning in Speech Processing: Challenges, Recent
Advances, and Future Trends
- arxiv url: http://arxiv.org/abs/2001.00378v2
- Date: Fri, 24 Sep 2021 05:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 04:49:47.551743
- Title: Deep Representation Learning in Speech Processing: Challenges, Recent
Advances, and Future Trends
- Title(参考訳): 音声処理における深層表現学習 : 課題,最近の進歩,今後の展望
- Authors: Siddique Latif, Rajib Rana, Sara Khalifa, Raja Jurdak, Junaid Qadir,
and Bj\"orn W. Schuller
- Abstract要約: 本研究の主な貢献は,音声表現学習の様々な技術について,最新の包括的調査を行うことである。
近年, ASR, SR, SER の音声評価が行われているが,これらは音声からの表現学習に重点を置いていない。
- 参考スコア(独自算出の注目度): 10.176394550114411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on speech processing has traditionally considered the task of
designing hand-engineered acoustic features (feature engineering) as a separate
distinct problem from the task of designing efficient machine learning (ML)
models to make prediction and classification decisions. There are two main
drawbacks to this approach: firstly, the feature engineering being manual is
cumbersome and requires human knowledge; and secondly, the designed features
might not be best for the objective at hand. This has motivated the adoption of
a recent trend in speech community towards utilisation of representation
learning techniques, which can learn an intermediate representation of the
input signal automatically that better suits the task at hand and hence lead to
improved performance. The significance of representation learning has increased
with advances in deep learning (DL), where the representations are more useful
and less dependent on human knowledge, making it very conducive for tasks like
classification, prediction, etc. The main contribution of this paper is to
present an up-to-date and comprehensive survey on different techniques of
speech representation learning by bringing together the scattered research
across three distinct research areas including Automatic Speech Recognition
(ASR), Speaker Recognition (SR), and Speaker Emotion Recognition (SER). Recent
reviews in speech have been conducted for ASR, SR, and SER, however, none of
these has focused on the representation learning from speech -- a gap that our
survey aims to bridge.
- Abstract(参考訳): 音声処理の研究は伝統的に、手作業による音響特徴(機能工学)を、予測と分類決定を行う効率的な機械学習(ML)モデルを設計するタスクとは別の問題として、設計するタスクとみなしてきた。
このアプローチの主な欠点は2つある: 第一に、手動である機能エンジニアリングは面倒で、人間の知識を必要とする;そして第二に、設計された機能は、目の前の目的のためには最適ではないかもしれない。
これは、入力信号の中間表現を自動的に学習し、目の前のタスクに合うようにし、その結果、パフォーマンスを改善することができる。
表現学習の意義は深層学習(dl)の進歩とともに増大しており、表現はより有用で人間の知識に依存しないため、分類や予測などのタスクに非常に適している。
本研究の主な貢献は、音声認識(ASR)、話者認識(SR)、話者感情認識(SER)の3つの異なる研究領域に散在する研究をまとめることで、音声表現学習の様々な技術に関する最新の総合的な調査を行うことである。
ASR、SR、SERのスピーチに関する最近のレビューは行われているが、いずれも音声からの表現学習に焦点を当てていない。
関連論文リスト
- Unsupervised Representations Improve Supervised Learning in Speech
Emotion Recognition [1.3812010983144798]
本研究では,小さな音声セグメントからの感情認識のための自己教師付き特徴抽出と教師付き分類を統合した革新的なアプローチを提案する。
事前処理では,Wav2Vecモデルに基づく自己教師付き特徴抽出器を用いて音声データから音響特徴を抽出した。
次に、前処理ステップの出力特徴マップを、カスタム設計の畳み込みニューラルネットワーク(CNN)ベースのモデルに入力し、感情分類を行う。
論文 参考訳(メタデータ) (2023-09-22T08:54:06Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Survey on Automated Short Answer Grading with Deep Learning: from Word
Embeddings to Transformers [5.968260239320591]
教育課題を学生数の増加に拡大する手段として,ASAG (Automated Short answer grading) が教育において注目を集めている。
自然言語処理と機械学習の最近の進歩はASAGの分野に大きな影響を与えた。
論文 参考訳(メタデータ) (2022-03-11T13:47:08Z) - Visualizing Automatic Speech Recognition -- Means for a Better
Understanding? [0.1868368163807795]
我々は、画像認識からインポートし、オーディオデータを扱うのに適した属性法が、ASRの動作を明らかにするのにどう役立つかを示す。
ASRのエンドツーエンドモデルであるSpeech Deepをケーススタディとして、これらの手法が、入力のどの特徴が出力を決定するのに最も影響するかを可視化するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2022-02-01T13:35:08Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Multi-Task Learning with Auxiliary Speaker Identification for
Conversational Emotion Recognition [32.439818455554885]
話者識別(SI)を補助課題として活用し,会話における発話表現を強化する。
この方法により、追加のSIコーパスから話者認識型文脈表現を学習できる。
2つのベンチマークデータセットの実験では、提案されたアーキテクチャがCERに非常に有効であることが示されている。
論文 参考訳(メタデータ) (2020-03-03T12:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。