Fugu-MT 論文翻訳(概要): SpeechCraft: A Fine-grained Expressive Speech Dataset with Natural Language Description

論文の概要: SpeechCraft: A Fine-grained Expressive Speech Dataset with Natural Language Description

arxiv url: http://arxiv.org/abs/2408.13608v1
Date: Sat, 24 Aug 2024 15:36:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 18:22:33.446721
Title: SpeechCraft: A Fine-grained Expressive Speech Dataset with Natural Language Description
Title（参考訳）: SpeechCraft: 自然言語記述によるきめ細かい表現型音声データセット
Authors: Zeyu Jin, Jia Jia, Qixin Wang, Kehan Li, Shuoyi Zhou, Songtao Zhou, Xiaoyu Qin, Zhiyong Wu,
Abstract要約: 本稿では,表現的かつ鮮明な人間の言語記述で単語中の音声クリップに注釈を付ける,解釈のための自動音声アノテーションシステムを提案する。本システムでは,自然言語記述の調整による音声スタイルの深い理解を提供する。約2000時間の音声データを含み、200万以上の音声クリップを含む、高度に記述的な自然言語スタイルのプロンプトによって区別されている。
参考スコア（独自算出の注目度）: 19.064845530513285
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech-language multi-modal learning presents a significant challenge due to the fine nuanced information inherent in speech styles. Therefore, a large-scale dataset providing elaborate comprehension of speech style is urgently needed to facilitate insightful interplay between speech audio and natural language. However, constructing such datasets presents a major trade-off between large-scale data collection and high-quality annotation. To tackle this challenge, we propose an automatic speech annotation system for expressiveness interpretation that annotates in-the-wild speech clips with expressive and vivid human language descriptions. Initially, speech audios are processed by a series of expert classifiers and captioning models to capture diverse speech characteristics, followed by a fine-tuned LLaMA for customized annotation generation. Unlike previous tag/templet-based annotation frameworks with limited information and diversity, our system provides in-depth understandings of speech style through tailored natural language descriptions, thereby enabling accurate and voluminous data generation for large model training. With this system, we create SpeechCraft, a fine-grained bilingual expressive speech dataset. It is distinguished by highly descriptive natural language style prompts, containing approximately 2,000 hours of audio data and encompassing over two million speech clips. Extensive experiments demonstrate that the proposed dataset significantly boosts speech-language task performance in stylist speech synthesis and speech style understanding.
Abstract（参考訳）: 発話スタイルに固有の微妙なニュアンス情報により,多モーダル学習は重要な課題となる。そのため,音声と自然言語の理解を深めるためには,音声スタイルの精巧な理解を提供する大規模データセットが緊急に必要である。しかし、そのようなデータセットの構築は、大規模なデータ収集と高品質なアノテーションの間に大きなトレードオフをもたらす。この課題に対処するため、我々は、表現力と鮮明な人間の言語記述で、単語中の音声クリップに注釈を付ける、表現力の解釈のための自動音声アノテーションシステムを提案する。音声音声は、最初は一連の専門家分類器とキャプションモデルによって処理され、多様な音声特性をキャプチャし、その後、カスタマイズされたアノテーション生成のための微調整されたLLaMAが続く。情報量や多様性が制限された従来のタグ/テンプレットベースのアノテーションフレームワークとは違って,提案システムは,自然言語記述の調整による音声スタイルの深い理解を提供し,大規模なモデルトレーニングのための正確で高機能なデータ生成を可能にする。このシステムにより、細粒度のバイリンガル表現型音声データセットであるSpeechCraftを作成する。約2000時間の音声データを含み、200万以上の音声クリップを含む、高度に記述的な自然言語スタイルのプロンプトによって区別されている。大規模な実験により,提案したデータセットは,スタイリスト音声合成と音声スタイル理解において,言語タスクのパフォーマンスを著しく向上させることが示された。

関連論文リスト

S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information [47.950757976473035]
パラ言語情報を用いた命令追従機能の評価を行う,新しいアリーナスタイルのS2SベンチマークであるS2S-Arenaを紹介する。 GPT-4oの優れた性能に加えて、カスケードされたASR, LLM, TTSの音声モデルは、音声2音声プロトコルにおけるテキスト・音声アライメント後に共同訓練されたモデルよりも優れる。
論文参考訳（メタデータ） (2025-03-07T02:07:00Z)
A Unit-based System and Dataset for Expressive Direct Speech-to-Speech Translation [38.88908101517807]
本研究は,様々な映画の音声トラックから,新しい,注意深くキュレートされた多言語データセットについて紹介する。各データセットペアは、パラ言語情報と持続時間に正確にマッチする。我々は、複数の韻律伝達技術を統合することでこれを強化し、正確で自然な響きがあり、パラ言語的詳細に富む翻訳を目指しています。
論文参考訳（メタデータ） (2025-02-01T09:24:32Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach [14.5696754689252]
音声言語モデリングの最近の進歩は、音声から直接言語を学ぶことが可能であることを示している。音素分類に基づく微調整音声表現モデルにより、より文脈不変な表現が得られることを示す。
論文参考訳（メタデータ） (2024-09-16T10:29:15Z)
DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文参考訳（メタデータ） (2024-06-27T03:52:35Z)
DisfluencySpeech -- Single-Speaker Conversational Speech Dataset with Paralanguage [7.096838107088313]
DisfluencySpeechは、パラ言語でラベル付けされた英語の音声データセットである。 Switchboard-1 電話音声コーパス(Switchboard)から10時間近い表現的発話を再現する1つの話者
論文参考訳（メタデータ） (2024-06-13T05:23:22Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
Natural language guidance of high-fidelity text-to-speech with synthetic annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文参考訳（メタデータ） (2024-02-02T21:29:34Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
Direct Speech-to-speech Translation without Textual Annotation using Bottleneck Features [13.44542301438426]
テキストの注釈やコンテンツ情報なしに訓練できる音声音声合成モデルを提案する。 Mandarin-Cantonese音声翻訳実験は,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2022-12-12T10:03:10Z)
GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。 GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2022-05-15T08:16:02Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。