論文の概要: Generative Spoken Language Modeling from Raw Audio
- arxiv url: http://arxiv.org/abs/2102.01192v1
- Date: Mon, 1 Feb 2021 21:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:56:07.970566
- Title: Generative Spoken Language Modeling from Raw Audio
- Title(参考訳): 生音声から生成した音声言語モデリング
- Authors: Kushal Lakhotia, Evgeny Kharitonov, Wei-Ning Hsu, Yossi Adi, Adam
Polyak, Benjamin Bolte, Tu-Anh Nguyen, Jade Copet, Alexei Baevski, Adelrahman
Mohamed, Emmanuel Dupoux
- Abstract要約: 生成音声言語モデリングは、(テキストやラベルなしで)生音声のみから、言語の音響的特徴と言語的特徴を共同で学習することを伴う
本稿では,2つのエンドツーエンドタスクの音響的品質と言語的品質の観点から,生成した出力を自動的に評価する指標を提案する。
我々は、離散音声エンコーダ(離散音声単位を返却する)、生成言語モデル(擬似テキスト単位で学習する)、音声デコーダからなるベースラインシステムをテストする。
- 参考スコア(独自算出の注目度): 42.153136032037175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative spoken language modeling involves learning jointly the acoustic
and linguistic characteristics of a language from raw audio only (without text
or labels). We introduce metrics to automatically evaluate the generated output
in terms of acoustic and linguistic quality in two associated end-to-end tasks,
respectively: speech resynthesis (repeating the speech input using the system's
own voice), and speech generation (producing novel speech outputs conditional
on a spoken prompt, or unconditionally), and validate these metrics with human
judgment. We test baseline systems consisting of a discrete speech encoder
(returning discrete, low bitrate, pseudo-text units), a generative language
model (trained on pseudo-text units), and a speech decoder (generating a
waveform from pseudo-text). By comparing three state-of-the-art unsupervised
speech encoders (Contrastive Predictive Coding (CPC), wav2vec 2.0, HuBERT), and
varying the number of discrete units (50, 100, 200), we investigate how the
generative performance depends on the quality of the learned units as measured
by unsupervised metrics (zero-shot probe tasks). We will open source our
evaluation stack and baseline models.
- Abstract(参考訳): ジェネレーティブ・スピーカ言語モデリングは、(テキストやラベルなしで)生の音声のみから言語の音響的および言語的特性を共同で学習することを含む。
音声合成(システム自身の音声を用いて音声入力を繰り返す)と音声生成(音声プロンプトで条件付きまたは無条件で新規音声出力を生成する)の2つのタスクにおいて、生成した出力を音響的および言語的品質で自動評価する指標を導入し、これらの指標を人間の判断で検証する。
本研究では,離散音声エンコーダ(離散,低ビットレート,擬似テキスト単位)と生成言語モデル(擬似テキスト単位で学習)と音声デコーダ(擬似テキストから波形を生成する)からなるベースラインシステムをテストする。
3つの最先端の教師なし音声符号化(contrastive prediction coding (cpc), wav2vec 2.0, hubert)と離散単位数(50, 100, 200)を比較し,教師なしメトリクス(ゼロショットプローブタスク)で測定した学習単位の品質に依存するかを検討した。
私たちは評価スタックとベースラインモデルをオープンソース化します。
関連論文リスト
- Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages [49.6922490267701]
我々は,自己教師型音声エンコーダのコード切替能力を評価するために,ゼロリソースコード切替音声ベンチマークを導入した。
本稿では,音声エンコーダのコードスイッチング能力を評価するために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:58:11Z) - Direct Text to Speech Translation System using Acoustic Units [12.36988942647101]
本稿では,離散音響単位を用いた音声翻訳システムを提案する。
このフレームワークは、異なるソース言語のテキストを入力として使用し、この言語でテキストの書き起こしを必要とせずに、ターゲット言語で音声を生成する。
提案したアーキテクチャを、より多くの言語で事前訓練されたモデルで初期化すると、結果は顕著に改善される。
論文 参考訳(メタデータ) (2023-09-14T07:35:14Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech [3.42658286826597]
本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案する。
本モデルでは,言語間で効率的に情報を共有できることが示され,主観的評価テストにより,ベースラインよりも自然な,正確なコードスイッチング音声を生成する。
論文 参考訳(メタデータ) (2020-08-03T10:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。