Fugu-MT 論文翻訳(概要): A Framework for Synthetic Audio Conversations Generation using Large Language Models

論文の概要: A Framework for Synthetic Audio Conversations Generation using Large Language Models

arxiv url: http://arxiv.org/abs/2409.00946v2
Date: Sat, 2 Nov 2024 04:00:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 03:35:26.105777
Title: A Framework for Synthetic Audio Conversations Generation using Large Language Models
Title（参考訳）: 大規模言語モデルを用いた音声合成のためのフレームワーク
Authors: Kaung Myat Kyaw, Jonathan Hoyin Chan,
Abstract要約: Conversa Synthは、複数のペルソナ設定を持つ大規模言語モデル(LLM)を使用して合成会話音声を生成するように設計されたフレームワークである。このフレームワークはまず、さまざまなトピックにわたる多様で一貫性のあるテキストベースの対話を生成し、その後、TTS(text-to-speech)システムを使用して音声に変換する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce ConversaSynth, a framework designed to generate synthetic conversation audio using large language models (LLMs) with multiple persona settings. The framework first creates diverse and coherent text-based dialogues across various topics, which are then converted into audio using text-to-speech (TTS) systems. Our experiments demonstrate that ConversaSynth effectively generates highquality synthetic audio datasets, which can significantly enhance the training and evaluation of models for audio tagging, audio classification, and multi-speaker speech recognition. The results indicate that the synthetic datasets generated by ConversaSynth exhibit substantial diversity and realism, making them suitable for developing robust, adaptable audio-based AI systems.
Abstract（参考訳）: 本稿では,複数のペルソナ設定を持つ大言語モデル(LLM)を用いて合成会話音声を生成するためのフレームワークであるConversaSynthを紹介する。このフレームワークはまず、さまざまなトピックにわたる多様で一貫性のあるテキストベースの対話を生成し、その後、TTS(text-to-speech)システムを使用して音声に変換する。実験の結果、ConversaSynthは高品質な合成音声データセットを効果的に生成し、音声タグ付け、音声分類、マルチスピーカ音声認識のためのモデルの訓練と評価を大幅に向上させることができることがわかった。その結果、ConversaSynthが生成した合成データセットには、かなりの多様性とリアリズムがあり、堅牢で適応可能なオーディオベースのAIシステムの開発に適していることが示唆された。

関連論文リスト

Covo-Audio Technical Report [61.09708870154148]
7BバックエンドのLALMであるCovo-Audioは、連続的なオーディオ入力を直接処理し、単一の統一アーキテクチャ内でオーディオ出力を生成する。対話指向の変種であるCovo-Audio-Chatは、意味的に強い会話能力を示す。
論文参考訳（メタデータ） (2026-02-10T14:31:11Z)
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-26T16:32:06Z)
DialogueAgents: A Hybrid Agent-Based Speech Synthesis Framework for Multi-Party Dialogue [17.397151329196955]
本稿では,新しいハイブリッドエージェントベース音声合成フレームワークであるDialogueAgentsを提案する。バイリンガル・マルチパーティ・マルチターン音声対話データセットであるMultiTalkにコントリビュートする。
論文参考訳（メタデータ） (2025-04-20T04:14:30Z)
SpeechDialogueFactory: Generating High-Quality Speech Dialogue Data to Accelerate Your Speech-LLM Development [42.598003881584816]
自然言語対話を効率的に生成するための生産対応フレームワークであるtextscSpeechDialogueFactory を紹介する。提案手法では,メタデータ生成,対話スクリプティング,パラ言語に富んだ発話シミュレーション,音声クローニングによる自然な音声合成を含む包括的パイプラインを用いる。私たちはオープンソースツールキットとして、サンプルデータセットを英語と中国語で公開しています。
論文参考訳（メタデータ） (2025-03-31T08:52:21Z)
OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios [45.78414948567598]
本稿では,多種多様なシナリオの対話モデルを強化するために合成データを活用することを提案する。 ShareChatXは、多様なシナリオにまたがる音声対話のための、最初の包括的な大規模データセットである。また、合成データを用いた対話システムの訓練における重要な側面についても検討する。
論文参考訳（メタデータ） (2025-01-02T17:58:23Z)
CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文参考訳（メタデータ） (2024-12-13T12:59:39Z)
DiaSynth: Synthetic Dialogue Generation Framework for Low Resource Dialogue Applications [18.378069426713]
既存の研究は、対話システムの訓練に十分なスケールが欠けている一般またはニッチなデータセットによって制約されている。本稿では,高品質で文脈的にリッチな対話を生成可能な合成対話生成フレームワークであるDia Synthを紹介する。我々は,異なるLLMを用いて合成データを生成し,DialogSum とSAMSum を例に挙げて実験を行った。
論文参考訳（メタデータ） (2024-09-25T07:03:31Z)
Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition [48.527630771422935]
複数話者対話型ASRのための合成データ生成パイプラインを提案する。我々は、電話と遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。
論文参考訳（メタデータ） (2024-08-17T14:47:05Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer Learning [3.5032870024762386]
本稿では,Fastpitch text-to-speech(TTS)モデルを用いて,高品質な合成子音声を生成する手法を提案する。このアプローチでは、子話を扱うためにマルチスピーカーTSモデルを微調整する。実子声と合成子声の間に有意な相関が認められた客観的評価を行った。
論文参考訳（メタデータ） (2023-11-07T19:31:44Z)
On decoder-only architecture for speech-to-text and large language model integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2023-07-08T06:47:58Z)
How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics [33.070158866023]
生成音声言語モデリング(GSLM)は、音声分析と合成のための音素ではなく、データから派生した学習シンボルを使用する。本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。
論文参考訳（メタデータ） (2023-06-01T14:07:19Z)
Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文参考訳（メタデータ） (2023-05-30T17:59:26Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)
Noise Robust TTS for Low Resource Speakers using Pre-trained Model and Speech Enhancement [31.33429812278942]
提案したエンドツーエンド音声合成モデルでは,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として利用する。実験結果から,提案手法により生成した音声は,直接調整したマルチ話者音声合成モデルよりも主観評価が優れていることがわかった。
論文参考訳（メタデータ） (2020-05-26T06:14:06Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。