論文の概要: The NPU-HWC System for the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge
- arxiv url: http://arxiv.org/abs/2410.23815v1
- Date: Thu, 31 Oct 2024 10:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:59:59.200222
- Title: The NPU-HWC System for the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge
- Title(参考訳): ISCSLP 2024におけるNPU-HWCシステム
- Authors: Dake Guo, Jixun Yao, Xinfa Zhu, Kangxiang Xia, Zhao Guo, Ziyu Zhang, Yao Wang, Jie Liu, Lei Xie,
- Abstract要約: 本稿では,ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge 2024(ICAGC)に提出されたNPU-HWCシステムについて述べる。
本システムは,トラック1の音声生成装置とトラック2の音声生成装置の2つのモジュールから構成される。
- 参考スコア(独自算出の注目度): 12.862628838633396
- License:
- Abstract: This paper presents the NPU-HWC system submitted to the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge 2024 (ICAGC). Our system consists of two modules: a speech generator for Track 1 and a background audio generator for Track 2. In Track 1, we employ Single-Codec to tokenize the speech into discrete tokens and use a language-model-based approach to achieve zero-shot speaking style cloning. The Single-Codec effectively decouples timbre and speaking style at the token level, reducing the acoustic modeling burden on the autoregressive language model. Additionally, we use DSPGAN to upsample 16 kHz mel-spectrograms to high-fidelity 48 kHz waveforms. In Track 2, we propose a background audio generator based on large language models (LLMs). This system produces scene-appropriate accompaniment descriptions, synthesizes background audio with Tango 2, and integrates it with the speech generated by our Track 1 system. Our submission achieves the second place and the first place in Track 1 and Track 2 respectively.
- Abstract(参考訳): 本稿では,ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge 2024 (ICAGC)に提出されたNPU-HWCシステムについて述べる。
本システムは,トラック1の音声生成装置とトラック2の音声生成装置の2つのモジュールから構成される。
トラック1では、音声を離散トークンにトークン化するためにSingle-Codecを使用し、ゼロショット音声スタイルのクローニングを実現するために言語モデルに基づくアプローチを用いる。
シングルコーデックは音色と発話スタイルをトークンレベルで効果的に分離し、自己回帰言語モデルの音響的モデリング負担を軽減する。
さらに,DSPGANを用いて16kHzのメル-スペクトログラムを高忠実度48kHzの波形にアップサンプリングする。
トラック2では,大規模言語モデル(LLM)に基づくバックグラウンドオーディオ生成手法を提案する。
本システムでは、シーンに適した伴奏記述を作成し、Tango 2で背景音声を合成し、トラック1システムで生成された音声と統合する。
我々の提出は、それぞれ1番線と2番線の第2位と第1位を達成する。
関連論文リスト
- TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - The FruitShell French synthesis system at the Blizzard 2023 Challenge [12.459890525109646]
本稿では,Blizzard Challenge 2023のためのフランス語音声合成システムを提案する。
この課題は、女性話者から高品質な音声を生成することと、特定の個人によく似た音声を生成することの2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-09-01T02:56:20Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - SoundStorm: Efficient Parallel Audio Generation [27.121920017380273]
本研究では,効率的な非自己回帰音声生成モデルSoundStormを提案する。
SoundStormはAudioLMのセマンティックトークンとして受け取られ、双方向の注意と信頼に基づく並列デコーディングに依存している。
我々は,高品質な自然な対話セグメントを合成することにより,より長いシーケンスに音声生成を拡張できることを実証する。
論文 参考訳(メタデータ) (2023-05-16T17:41:25Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - The AS-NU System for the M2VoC Challenge [49.12981125333458]
M2VoC(MultiSpeaker Multi-Style Voice Cloning Challenge)における2トラックのAS-NUシステムについて述べる。
第1トラックは音声クローニングに100件のターゲット発話を使用することにフォーカスし、第2トラックは音声クローニングにわずか5件のターゲット発話を使用することにフォーカスした。
第2トラックにおけるデータ不足のため,ttsシステムの訓練データから,目標話者に最も近い話者を選択し,話者の発話と与えられた5つの目標発話を用いてモデルを微調整した。
論文 参考訳(メタデータ) (2021-04-07T09:26:20Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。