論文の概要: Generative Spoken Dialogue Language Modeling
- arxiv url: http://arxiv.org/abs/2203.16502v1
- Date: Wed, 30 Mar 2022 17:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:00:26.246435
- Title: Generative Spoken Dialogue Language Modeling
- Title(参考訳): 音声対話言語モデルの作成
- Authors: Tu Anh Nguyen, Eugene Kharitonov, Jade Copet, Yossi Adi, Wei-Ning Hsu,
Ali Elkahky, Paden Tomasello, Robin Algayres, Benoit Sagot, Abdelrahman
Mohamed, Emmanuel Dupoux
- Abstract要約: 自然主義音声対話の音声サンプルを生成できる最初の「テキストレス」モデルであるdGSLMを紹介した。
これは、教師なし音声単位探索とデュアルトウワートランスアーキテクチャに関する最近の研究を利用している。
2つのチャンネルで音声、笑い、その他のパラ言語的な信号を同時に生成することができ、自然主義的なターンテイクを再現することができる。
- 参考スコア(独自算出の注目度): 46.5879150153352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce dGSLM, the first "textless" model able to generate audio samples
of naturalistic spoken dialogues. It uses recent work on unsupervised spoken
unit discovery coupled with a dual-tower transformer architecture with
cross-attention trained on 2000 hours of two-channel raw conversational audio
(Fisher dataset) without any text or labels. It is able to generate speech,
laughter and other paralinguistic signals in the two channels simultaneously
and reproduces naturalistic turn taking. Generation samples can be found at:
https://speechbot.github.io/dgslm.
- Abstract(参考訳): 自然言語対話の音声サンプルを生成できる最初の「テキストレス」モデルであるdGSLMを紹介する。
教師なし音声単位発見に関する最近の研究と、テキストやラベルを使わずに、2チャンネルの生会話音声(Fisherデータセット)の2000時間でトレーニングされたクロスアテンションを備えたデュアルトワートランスフォーマーアーキテクチャを併用する。
2つのチャネルで音声、笑い、その他のパラ言語信号を同時に生成し、自然主義的なターンテイクを再現することができる。
生成サンプルは、https://speechbot.github.io/dgslmで見ることができる。
関連論文リスト
- Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [56.933140743757555]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、ソースとターゲットの音声間のスタイル伝達を学習する上での課題となる。
本稿では,自己教師型モデルから独立した単位をベースとした音響言語モデルと,スタイル伝達のためのニューラルネットワークを用いたS2STフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Text-Free Prosody-Aware Generative Spoken Language Modeling [46.19240899818964]
pGSLM(Prosody-aware Generative Speech Language Model)を提案する。
音声のマルチストリームトランスフォーマー言語モデル(MS-TLM)と、MS-TLM出力を波形に変換する適応型HiFi-GANモデルで構成されている。
実験結果から, pGSLMは韻律とコンテンツモデリングの両方を改善するために韻律を利用することができ, 自然な, 意味のある, 一貫性のある音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2021-09-07T18:03:21Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - Generative Spoken Language Modeling from Raw Audio [42.153136032037175]
生成音声言語モデリングは、(テキストやラベルなしで)生音声のみから、言語の音響的特徴と言語的特徴を共同で学習することを伴う
本稿では,2つのエンドツーエンドタスクの音響的品質と言語的品質の観点から,生成した出力を自動的に評価する指標を提案する。
我々は、離散音声エンコーダ(離散音声単位を返却する)、生成言語モデル(擬似テキスト単位で学習する)、音声デコーダからなるベースラインシステムをテストする。
論文 参考訳(メタデータ) (2021-02-01T21:41:40Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。