Fugu-MT 論文翻訳(概要): Generative Spoken Dialogue Language Modeling

論文の概要: Generative Spoken Dialogue Language Modeling

arxiv url: http://arxiv.org/abs/2203.16502v1
Date: Wed, 30 Mar 2022 17:39:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-31 15:00:26.246435
Title: Generative Spoken Dialogue Language Modeling
Title（参考訳）: 音声対話言語モデルの作成
Authors: Tu Anh Nguyen, Eugene Kharitonov, Jade Copet, Yossi Adi, Wei-Ning Hsu, Ali Elkahky, Paden Tomasello, Robin Algayres, Benoit Sagot, Abdelrahman Mohamed, Emmanuel Dupoux
Abstract要約: 自然主義音声対話の音声サンプルを生成できる最初の「テキストレス」モデルであるdGSLMを紹介した。これは、教師なし音声単位探索とデュアルトウワートランスアーキテクチャに関する最近の研究を利用している。 2つのチャンネルで音声、笑い、その他のパラ言語的な信号を同時に生成することができ、自然主義的なターンテイクを再現することができる。
参考スコア（独自算出の注目度）: 46.5879150153352
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce dGSLM, the first "textless" model able to generate audio samples of naturalistic spoken dialogues. It uses recent work on unsupervised spoken unit discovery coupled with a dual-tower transformer architecture with cross-attention trained on 2000 hours of two-channel raw conversational audio (Fisher dataset) without any text or labels. It is able to generate speech, laughter and other paralinguistic signals in the two channels simultaneously and reproduces naturalistic turn taking. Generation samples can be found at: https://speechbot.github.io/dgslm.
Abstract（参考訳）: 自然言語対話の音声サンプルを生成できる最初の「テキストレス」モデルであるdGSLMを紹介する。教師なし音声単位発見に関する最近の研究と、テキストやラベルを使わずに、2チャンネルの生会話音声(Fisherデータセット)の2000時間でトレーニングされたクロスアテンションを備えたデュアルトワートランスフォーマーアーキテクチャを併用する。 2つのチャネルで音声、笑い、その他のパラ言語信号を同時に生成し、自然主義的なターンテイクを再現することができる。生成サンプルは、https://speechbot.github.io/dgslmで見ることができる。

関連論文リスト

SALMONN-omni: A Codec-free LLM for Full-duplex Speech Understanding and Generation [17.56310064245171]
SALMON-Omni(サルモン・オムニ)は、発話中に発声した音声を同時に聴くことができる音声理解・生成モデルである。 SALMON-Omniは、ターンテイキング、バージイン、エコーキャンセルのシナリオの管理に長けており、完全な対話型AIシステムの堅牢なプロトタイプとしての可能性を確立している。
論文参考訳（メタデータ） (2024-11-27T08:38:57Z)
Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文参考訳（メタデータ） (2024-09-17T17:55:39Z)
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文参考訳（メタデータ） (2024-07-04T16:49:02Z)
Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。 GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文参考訳（メタデータ） (2024-06-03T04:16:30Z)
CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文参考訳（メタデータ） (2024-04-10T02:32:58Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文参考訳（メタデータ） (2023-04-18T16:31:59Z)
Text-Free Prosody-Aware Generative Spoken Language Modeling [46.19240899818964]
pGSLM(Prosody-aware Generative Speech Language Model)を提案する。音声のマルチストリームトランスフォーマー言語モデル(MS-TLM)と、MS-TLM出力を波形に変換する適応型HiFi-GANモデルで構成されている。実験結果から, pGSLMは韻律とコンテンツモデリングの両方を改善するために韻律を利用することができ, 自然な, 意味のある, 一貫性のある音声を生成することができることがわかった。
論文参考訳（メタデータ） (2021-09-07T18:03:21Z)
StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。私たちのモデルは20人の英語話者でしか訓練されていません。音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文参考訳（メタデータ） (2021-07-21T23:44:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。