論文の概要: MASR: Multi-label Aware Speech Representation
- arxiv url: http://arxiv.org/abs/2307.10982v2
- Date: Mon, 25 Sep 2023 12:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 01:51:11.188322
- Title: MASR: Multi-label Aware Speech Representation
- Title(参考訳): MASR:マルチラベル対応音声表現
- Authors: Anjali Raj, Shikhar Bharadwaj, Sriram Ganapathy, Min Ma, Shikhar
Vashishth
- Abstract要約: マルチラベル対応音声表現学習フレームワークMASRを提案する。
MASRは、複数の外部知識ソースを組み込むことで、メタデータ情報の利用を促進できる。
我々は、他の確立されたベンチマークに比べて、MASRの大幅な性能向上を示す。
- 参考スコア(独自算出の注目度): 36.2978180342839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the recent years, speech representation learning is constructed primarily
as a self-supervised learning (SSL) task, using the raw audio signal alone,
while ignoring the side-information that is often available for a given speech
recording. In this paper, we propose MASR, a Multi-label Aware Speech
Representation learning framework, which addresses the aforementioned
limitations. MASR enables the inclusion of multiple external knowledge sources
to enhance the utilization of meta-data information. The external knowledge
sources are incorporated in the form of sample-level pair-wise similarity
matrices that are useful in a hard-mining loss. A key advantage of the MASR
framework is that it can be combined with any choice of SSL method. Using MASR
representations, we perform evaluations on several downstream tasks such as
language identification, speech recognition and other non-semantic tasks such
as speaker and emotion recognition. In these experiments, we illustrate
significant performance improvements for the MASR over other established
benchmarks. We perform a detailed analysis on the language identification task
to provide insights on how the proposed loss function enables the
representations to separate closely related languages.
- Abstract(参考訳): 近年,音声表現学習は主に自己教師付き学習(SSL)タスクとして構築され,生音声信号のみを使用しながら,特定の音声記録でしばしば利用できるサイドインフォメーションを無視している。
本稿では,上記の制約に対処するマルチラベル対応音声表現学習フレームワークMASRを提案する。
MASRは、複数の外部知識ソースを組み込むことで、メタデータ情報の利用を促進できる。
外部知識源は、ハードマイニング損失に有用なサンプルレベルのペアワイズ類似度行列の形で組み込まれている。
MASRフレームワークの重要な利点は、SSLメソッドの選択と組み合わせることができることである。
我々は,MASR表現を用いて,言語識別や音声認識,話者認識や感情認識などの非意味的タスクなど,下流タスクの評価を行う。
これらの実験では、他の確立されたベンチマークよりもMASRの大幅な性能向上を示す。
本稿では,言語識別タスクの詳細な解析を行い,提案した損失関数が表現を密接な関係のある言語を分離することを可能にする方法について考察する。
関連論文リスト
- Enhancing Multilingual Speech Generation and Recognition Abilities in LLMs with Constructed Code-switched Data [30.966072545451183]
本論文では,MutltiLingual MultiTask (MLMT)モデルを提案する。
我々は,異なる言語からの単語を分割し,CSデータに頼ることなくCS能力を備えた合成を行う,効果的なデータ構築手法を開発した。
論文 参考訳(メタデータ) (2024-09-17T08:11:07Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - SSHR: Leveraging Self-supervised Hierarchical Representations for Multilingual Automatic Speech Recognition [9.853451215277346]
自己教師付き階層表現(SSHR)を利用してMMSモデルを微調整する新しい手法を提案する。
我々は,2つの多言語データセットであるCommon VoiceとML-SUPERBについてSSHRを評価し,その実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2023-09-29T02:35:36Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Unsupervised Automatic Speech Recognition: A Review [2.6212127510234797]
研究文献をレビューし、完全に教師なしのASRにつながる可能性のあるモデルとアイデアを特定します。
本研究の目的は,音声データのみから学習できることの限界を特定し,音声認識の最小要件を理解することである。
論文 参考訳(メタデータ) (2021-06-09T08:33:20Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z) - General-Purpose Speech Representation Learning through a Self-Supervised
Multi-Granularity Framework [114.63823178097402]
本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。
具体的には、生成学習手法を用いて、小さな時間スケールできめ細かい情報を捕捉し、識別学習手法を用いて、粗い情報や意味情報を大規模に蒸留することを提案する。
論文 参考訳(メタデータ) (2021-02-03T08:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。