論文の概要: Towards a Common Speech Analysis Engine
- arxiv url: http://arxiv.org/abs/2203.00613v1
- Date: Tue, 1 Mar 2022 16:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 13:49:05.024496
- Title: Towards a Common Speech Analysis Engine
- Title(参考訳): 共通音声分析エンジンに向けて
- Authors: Hagai Aronowitz, Itai Gat, Edmilson Morais, Weizhong Zhu and Ron Hoory
- Abstract要約: 本稿では,近年の自己教師型音声処理の進歩を活用し,共通の音声分析エンジンを構築することを提案する。
本稿では,HuBERTの自己教師型音声表現に基づく共通音声分析エンジンのアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 16.044405846513495
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent innovations in self-supervised representation learning have led to
remarkable advances in natural language processing. That said, in the speech
processing domain, self-supervised representation learning-based systems are
not yet considered state-of-the-art. We propose leveraging recent advances in
self-supervised-based speech processing to create a common speech analysis
engine. Such an engine should be able to handle multiple speech processing
tasks, using a single architecture, to obtain state-of-the-art accuracy. The
engine must also enable support for new tasks with small training datasets.
Beyond that, a common engine should be capable of supporting distributed
training with client in-house private data. We present the architecture for a
common speech analysis engine based on the HuBERT self-supervised speech
representation. Based on experiments, we report our results for language
identification and emotion recognition on the standard evaluations NIST-LRE 07
and IEMOCAP. Our results surpass the state-of-the-art performance reported so
far on these tasks. We also analyzed our engine on the emotion recognition task
using reduced amounts of training data and show how to achieve improved
results.
- Abstract(参考訳): 自己教師付き表現学習の最近の革新は、自然言語処理の著しい進歩をもたらした。
とはいえ、音声処理領域では、自己教師付き表現学習に基づくシステムは、まだ最先端とはみなされていない。
本稿では,近年の自己教師型音声処理の進歩を活用し,共通の音声分析エンジンを構築することを提案する。
このようなエンジンは、単一のアーキテクチャを用いて複数の音声処理タスクを処理し、最先端の精度を得る。
エンジンは小さなトレーニングデータセットで新しいタスクのサポートも可能にする必要がある。
さらに、共通エンジンは、クライアント内プライベートデータによる分散トレーニングをサポートする必要がある。
本稿では,HuBERTの自己教師型音声表現に基づく共通音声分析エンジンのアーキテクチャを提案する。
実験に基づいて,NIST-LRE 07とIEMOCAPの標準評価における言語識別と感情認識の結果を報告する。
これらの課題について報告した最新技術性能を上回る結果を得た。
また、トレーニングデータ量の削減による感情認識タスクのエンジン分析を行い、改善した結果の達成方法を示した。
関連論文リスト
- Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - DinoSR: Self-Distillation and Online Clustering for Self-supervised
Speech Representation Learning [140.96990096377127]
自己教師型音声表現学習(DinoSR)のための自己蒸留とオンラインクラスタリングを導入する。
DinoSRはまず、入力されたオーディオから教師ネットワークにコンテキスト化された埋め込みを抽出し、埋め込み上にオンラインクラスタリングシステムを実行して、マシンが発見した携帯電話の在庫を出力し、最後に、識別トークンを使用して学生ネットワークを誘導する。
本稿では,DinoSRが複数の下流タスクにおいて過去の最先端性能を上回ることを示し,モデルと学習した離散単位の詳細な解析を行う。
論文 参考訳(メタデータ) (2023-05-17T07:23:46Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。
さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。
実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文 参考訳(メタデータ) (2022-04-05T21:22:38Z) - data2vec: A General Framework for Self-supervised Learning in Speech,
Vision and Language [85.9019051663368]
data2vecは、音声、NLP、コンピュータビジョンのいずれかに同じ学習方法を使用するフレームワークである。
中心となる考え方は、自己蒸留装置における入力のマスキングビューに基づいて、完全な入力データの潜在表現を予測することである。
音声認識、画像分類、自然言語理解に関する主要なベンチマークの実験は、新しい技術や競争性能の状態を実証している。
論文 参考訳(メタデータ) (2022-02-07T22:52:11Z) - Speech Emotion Recognition using Self-Supervised Features [14.954994969217998]
本稿では,アップストリーム+ダウンストリームアーキテクチャのパラダイムに基づくモジュール型エンド・ツー・エンド(E2E)SERシステムを提案する。
IEMOCAPデータセットからカテゴリ感情クラスを予測するためのSER実験が行われた。
提案したモノモーダル音声のみに基づくシステムは,SOTA結果を実現するとともに,強力かつきめ細かな自己教師付き音響特性の可能性にも光を当てる。
論文 参考訳(メタデータ) (2022-02-07T00:50:07Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - AttViz: Online exploration of self-attention for transparent neural
language modeling [7.574392147428978]
本研究では,AttVizを提案する。AttVizは,個々のテキストトークンに関連付けられた自己注意値の探索を行うオンラインツールキットである。
既存のディープラーニングパイプラインが、AttVizに適したアウトプットを生成し、最小限の労力で、アテンションヘッドとアグリゲーションの新たな視覚化を提供する方法を示します。
論文 参考訳(メタデータ) (2020-05-12T12:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。