論文の概要: On The Robustness of Self-Supervised Representations for Spoken Language
Modeling
- arxiv url: http://arxiv.org/abs/2209.15483v1
- Date: Fri, 30 Sep 2022 14:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:57:23.322718
- Title: On The Robustness of Self-Supervised Representations for Spoken Language
Modeling
- Title(参考訳): 音声言語モデリングにおける自己監督表現のロバスト性について
- Authors: Itai Gat, Felix Kreuk, Ann Lee, Jade Copet, Gabriel Synnaeve, Emmanuel
Dupoux, Yossi Adi
- Abstract要約: 自己監督的表現は、識別的および生成的タスクのために広範囲に研究されてきた。
現在の最先端の音声表現モデルは、音声情報を変えない基本信号の変動に頑健さを欠いている。
生成言語モデリングのための頑健な自己教師付き音声表現を効果的かつ効率的に学習する手法を提案する。
- 参考スコア(独自算出の注目度): 43.82663533473032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised representations have been extensively studied for
discriminative and generative tasks. However, their robustness capabilities
have not been extensively investigated. This work focuses on self-supervised
representations for spoken generative language models. First, we empirically
demonstrate how current state-of-the-art speech representation models lack
robustness to basic signal variations that do not alter the spoken information.
To overcome this, we propose an effective and efficient method to learn robust
self-supervised speech representation for generative spoken language modeling.
The proposed approach is based on applying a set of signal transformations to
the speech signal and optimizing the model using an iterative pseudo-labeling
scheme. Our method significantly improves over the evaluated baselines when
considering encoding metrics. We additionally evaluate our method on the
speech-to-speech translation task. We consider Spanish-English and
French-English conversions and empirically demonstrate the benefits of
following the proposed approach.
- Abstract(参考訳): 自己監督的表現は、識別的および生成的タスクのために広く研究されている。
しかし、その堅牢性は広く調査されていない。
本研究は、音声生成言語モデルのための自己教師付き表現に焦点を当てる。
まず,現状の音声表現モデルが,音声情報を変化させない基本信号変動に対する頑健性に欠けることを示す。
これを解決するために,生成言語モデリングのための頑健な自己教師付き音声表現を効果的かつ効率的に学習する手法を提案する。
提案手法は,音声信号に一連の信号変換を適用し,反復的擬似ラベル方式を用いてモデルを最適化することに基づく。
提案手法は,メトリクスを符号化する際の評価基準値を大幅に改善する。
さらに,音声対音声翻訳タスクにおける提案手法の評価を行った。
我々は、スペイン語とフランス語の変換を考察し、提案手法の利点を実証的に示す。
関連論文リスト
- SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Feature Normalization for Fine-tuning Self-Supervised Models in Speech
Enhancement [19.632358491434697]
自己教師付き学習を用いて訓練された大規模で事前訓練された表現モデルは、機械学習の様々な分野で人気を集めている。
本稿では,下流音声強調タスクにおける事前学習音声表現モデルの有用性について検討する。
提案手法は, 各種事前学習音声モデルと組み合わせることで, ベースラインと比較して, 音声品質を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-06-14T10:03:33Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - Modeling Intensification for Sign Language Generation: A Computational
Approach [13.57903290481737]
エンドツーエンドの手話生成モデルは手話の韻律を正確に表現していない。
我々は、データ駆動方式で強化をモデル化することで、生成した手話における韻律を改善することを目指している。
自動メトリクスで評価すると、強化モデリングにおける我々の取り組みがより良い結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-03-18T01:13:21Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Learning Spoken Language Representations with Neural Lattice Language
Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。
提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文 参考訳(メタデータ) (2020-07-06T10:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。