論文の概要: SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge?
- arxiv url: http://arxiv.org/abs/2306.08374v2
- Date: Tue, 27 Aug 2024 04:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 20:18:41.097954
- Title: SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge?
- Title(参考訳): SpeechGLUE: 自己監督型音声モデルが言語的知識をいかに捉えることができるか?
- Authors: Takanori Ashihara, Takafumi Moriya, Kohei Matsuura, Tomohiro Tanaka, Yusuke Ijima, Taichi Asami, Marc Delcroix, Yukinori Honma,
- Abstract要約: 音声表現のための自己教師付き学習(SSL)は、様々な下流タスクにうまく適用されている。
本稿では,音声SSL技術が言語知識をうまく捉えることができるかどうかを明らかにすることを目的とする。
- 参考スコア(独自算出の注目度): 45.901645659694935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) for speech representation has been successfully applied in various downstream tasks, such as speech and speaker recognition. More recently, speech SSL models have also been shown to be beneficial in advancing spoken language understanding tasks, implying that the SSL models have the potential to learn not only acoustic but also linguistic information. In this paper, we aim to clarify if speech SSL techniques can well capture linguistic knowledge. For this purpose, we introduce SpeechGLUE, a speech version of the General Language Understanding Evaluation (GLUE) benchmark. Since GLUE comprises a variety of natural language understanding tasks, SpeechGLUE can elucidate the degree of linguistic ability of speech SSL models. Experiments demonstrate that speech SSL models, although inferior to text-based SSL models, perform better than baselines, suggesting that they can acquire a certain amount of general linguistic knowledge from just unlabeled speech data.
- Abstract(参考訳): 音声表現のための自己教師付き学習(SSL)は、音声認識や話者認識など、様々な下流タスクにうまく適用されている。
最近では、音声SSLモデルも音声言語理解タスクの進行に有用であることが示され、SSLモデルが音響だけでなく言語情報も学習できる可能性が示唆されている。
本稿では,音声SSL技術が言語知識をうまく捉えることができるかどうかを明らかにすることを目的とする。
本研究では,汎用言語理解評価(GLUE)ベンチマークの音声バージョンであるSpeechGLUEを紹介する。
GLUEは様々な自然言語理解タスクから構成されるため、SpeechGLUEは音声SSLモデルの言語能力の程度を解明することができる。
実験では、テキストベースのSSLモデルに劣らず、音声SSLモデルはベースラインよりも優れた性能を示し、ラベルなしの音声データからある程度の言語知識を得られることを示唆している。
関連論文リスト
- What Do Self-Supervised Speech and Speaker Models Learn? New Findings
From a Cross Model Layer-Wise Analysis [44.93152068353389]
自己教師付き学習(SSL)は、意味のある音声表現を学習するために注目を集めている。
話者SSLモデルは、主に話者表現のための発話レベルの訓練目標を採用する。
論文 参考訳(メタデータ) (2024-01-31T07:23:22Z) - On the Use of Self-Supervised Speech Representations in Spontaneous
Speech Synthesis [12.53269106994881]
書き起こしのない多種多様な混合品質音声データから学習した自己教師付き学習(SSL)音声表現は、多くの音声技術応用において基礎を成している。
読解音声と自発音声の両方において、SSLは2段階のテキスト音声(TTS)において効果的な中間表現であることを示す。
我々は、自発TLSにおけるSSLの比較範囲を、各SSL内の6つの異なるSSLと3つのレイヤに拡張する。
論文 参考訳(メタデータ) (2023-07-11T09:22:10Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - LeBenchmark: A Reproducible Framework for Assessing Self-Supervised
Representation Learning from Speech [63.84741259993937]
膨大なラベルのないデータを用いた自己教師付き学習(SSL)は、画像処理と自然言語処理に成功している。
最近の研究では、音声からSSLも調べた。
音声からSSLを評価する再現可能なフレームワークであるLeBenchmarkを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。