Fugu-MT 論文翻訳(概要): DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage

論文の概要: DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage

arxiv url: http://arxiv.org/abs/2406.08820v1
Date: Thu, 13 Jun 2024 05:23:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 21:18:27.676199
Title: DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage
Title（参考訳）: DisfluencySpeech - パラ言語を用いた単一話者会話音声データセット
Authors: Kyra Wang, Dorien Herremans,
Abstract要約: DisfluencySpeechは、パラ言語でラベル付けされた英語の音声データセットである。 Switchboard-1 電話音声コーパス(Switchboard)から10時間近い表現的発話を再現する1つの話者
参考スコア（独自算出の注目度）: 7.096838107088313
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Laughing, sighing, stuttering, and other forms of paralanguage do not contribute any direct lexical meaning to speech, but they provide crucial propositional context that aids semantic and pragmatic processes such as irony. It is thus important for artificial social agents to both understand and be able to generate speech with semantically-important paralanguage. Most speech datasets do not include transcribed non-lexical speech sounds and disfluencies, while those that do are typically multi-speaker datasets where each speaker provides relatively little audio. This makes it challenging to train conversational Text-to-Speech (TTS) synthesis models that include such paralinguistic components. We thus present DisfluencySpeech, a studio-quality labeled English speech dataset with paralanguage. A single speaker recreates nearly 10 hours of expressive utterances from the Switchboard-1 Telephone Speech Corpus (Switchboard), simulating realistic informal conversations. To aid the development of a TTS model that is able to predictively synthesise paralanguage from text without such components, we provide three different transcripts at different levels of information removal (removal of non-speech events, removal of non-sentence elements, and removal of false starts), as well as benchmark TTS models trained on each of these levels.
Abstract（参考訳）: ラウイング、sighing、stattering、その他の形態のパラ言語は、直接の語彙的意味を音声に寄与しないが、それらは、皮肉のような意味論的および実践的なプロセスを助ける決定的な命題的文脈を提供する。したがって、人工社会エージェントは、意味的に重要なパラ言語による音声を理解・生成できることが重要である。ほとんどの音声データセットは、転写された非語彙音声の音と不一致を含まないが、そのデータセットは通常、各話者が比較的少ない音声を提供するマルチ話者データセットである。これにより、このようなパラ言語的コンポーネントを含む会話型テキスト音声合成モデル(TTS)の訓練が困難になる。そこで我々は,パラ言語を用いたスタジオ品質の英語音声データセットであるDisfluencySpeechを提案する。 1人の話者が、Switchboard-1電話音声コーパス(Switchboard)から約10時間の表現的発話を再現し、現実的な非公式会話をシミュレートする。これらのコンポーネントを使わずにテキストからパラ言語を予測的に合成できるTTSモデルの開発を支援するため、異なるレベルの情報除去(非音声イベントの除去、非文章要素の除去、偽開始の除去)の3つの異なる書き起こしと、これらのレベルに基づいて訓練されたベンチマークTSモデルを提供する。

関連論文リスト

CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation [25.82932373649325]
CrossSpeech++は、言語と話者情報をアンタングルする方法である。これにより、言語間音声合成の品質が大幅に向上する。さまざまなメトリクスを使って広範な実験を行い、CrossSpeech++が大幅な改善を実現していることを示す。
論文参考訳（メタデータ） (2024-12-28T06:32:49Z)
SeamlessExpressiveLM: Speech Language Model for Expressive Speech-to-Speech Translation with Chain-of-Thought [12.54786997634534]
本研究は,S2STのための単一言語モデルであるSeamlessExpressiveLMを提案する。我々は、複雑なソースからターゲットへの音声マッピングを、チェーン・オブ・シークレット・プロンプトで中間生成ステップに分解する。モデルはまずターゲットのセマンティックコンテンツを翻訳し、次に話者スタイルをマルチストリーム音響ユニットに転送する。
論文参考訳（メタデータ） (2024-05-30T18:28:31Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised representations [27.157701195636477]
ParrotTTSは、モジュール化されたテキスト音声合成モデルである。単一の話者からの書き起こしを使って、効果的にマルチスピーカーの変種を訓練することができる。低リソース設定で新しい言語に適応し、自己管理バックボーンのトレーニング中に見えない言語に一般化する。
論文参考訳（メタデータ） (2023-03-01T17:23:12Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文参考訳（メタデータ） (2022-09-30T09:12:10Z)
Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-03-29T11:26:56Z)
Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文参考訳（メタデータ） (2021-12-15T18:56:35Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。