論文の概要: Audio Generation with Multiple Conditional Diffusion Model
- arxiv url: http://arxiv.org/abs/2308.11940v3
- Date: Sun, 17 Dec 2023 06:01:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 20:21:01.208386
- Title: Audio Generation with Multiple Conditional Diffusion Model
- Title(参考訳): 複数条件拡散モデルによる音声生成
- Authors: Zhifang Guo, Jianguo Mao, Rui Tao, Long Yan, Kazushige Ouchi, Hong
Liu, Xiangdong Wang
- Abstract要約: 本稿では,既存の事前学習型テキスト音声モデルの制御性を向上する新しいモデルを提案する。
このアプローチは、生成された音声の時間的順序、ピッチ、エネルギーを細かく制御する。
- 参考スコア(独自算出の注目度): 15.250081484817324
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-based audio generation models have limitations as they cannot encompass
all the information in audio, leading to restricted controllability when
relying solely on text. To address this issue, we propose a novel model that
enhances the controllability of existing pre-trained text-to-audio models by
incorporating additional conditions including content (timestamp) and style
(pitch contour and energy contour) as supplements to the text. This approach
achieves fine-grained control over the temporal order, pitch, and energy of
generated audio. To preserve the diversity of generation, we employ a trainable
control condition encoder that is enhanced by a large language model and a
trainable Fusion-Net to encode and fuse the additional conditions while keeping
the weights of the pre-trained text-to-audio model frozen. Due to the lack of
suitable datasets and evaluation metrics, we consolidate existing datasets into
a new dataset comprising the audio and corresponding conditions and use a
series of evaluation metrics to evaluate the controllability performance.
Experimental results demonstrate that our model successfully achieves
fine-grained control to accomplish controllable audio generation. Audio samples
and our dataset are publicly available at
https://conditionaudiogen.github.io/conditionaudiogen/
- Abstract(参考訳): テキストベースの音声生成モデルは、音声中のすべての情報を包含できないため制限があり、テキストのみに依存する場合の制御性を制限する。
そこで本研究では,テキストの補足として,コンテンツ(タイムスタンプ)やスタイル(ピッチ輪郭,エネルギー輪郭)などの追加条件を組み込むことで,既存の事前学習テキスト・オーディオモデルの制御性を向上する新しいモデルを提案する。
このアプローチは、生成された音声の時間的順序、ピッチ、エネルギーを細かく制御する。
生成の多様性を維持するため,大規模な言語モデルとFusion-Netによって強化された訓練可能な制御条件エンコーダを用いて,事前学習されたテキスト・オーディオモデルの重みを凍結させながら追加条件を符号化・融合する。
適切なデータセットと評価指標が欠如しているため、既存のデータセットを音声および対応する条件を含む新しいデータセットに統合し、一連の評価指標を用いて制御性の評価を行う。
実験結果から,制御可能な音声生成を実現するための粒度制御が得られた。
オーディオサンプルとデータセットはhttps://conditionaudiogen.github.io/conditionaudiogen/で公開されています。
関連論文リスト
- Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
本稿では,ReWaSと呼ばれる新しいビデオ・テキスト・音声生成手法を提案する。
本手法は,ユーザのプロンプトからキーコンテンツキューを受信しながら,ビデオから音声の構造情報を推定する。
音声の生成成分を分離することにより、ユーザが好みに応じて、エネルギー、周囲環境、および一次音源を自由に調整できる、より柔軟なシステムとなる。
論文 参考訳(メタデータ) (2024-07-08T01:59:17Z) - ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec [50.273832905535485]
話者の声を完全に模倣し,任意の発話スタイルの制御と調整を可能にするTTSシステムであるControlSpeechを提案する。
以前のゼロショットTSモデルとコントロール可能なTSモデルは、さらなる制御と調整機能なしでスピーカーの声を模倣することしかできず、スピーカー固有の音声生成とは無関係であった。
論文 参考訳(メタデータ) (2024-06-03T11:15:16Z) - Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - AudioToken: Adaptation of Text-Conditioned Diffusion Models for
Audio-to-Image Generation [89.63430567887718]
そこで本研究では,テキスト・ツー・イメージ・ジェネレーションのために訓練された潜時拡散モデルを用いて,音声記録に条件付き画像を生成する手法を提案する。
提案手法は,事前学習された音声符号化モデルを用いて,音声とテキストの表現の適応層とみなすことができる新しいトークンに音声を符号化する。
論文 参考訳(メタデータ) (2023-05-22T14:02:44Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Mix and Match: Learning-free Controllable Text Generation using Energy
Language Models [33.97800741890231]
制御可能なテキスト生成のためのグローバルスコアベースの代替手段であるMix and Match LMを提案する。
我々は制御可能な生成のタスクをエネルギーベースモデルからのサンプルの描画として解釈する。
我々は、このエネルギーベースモデルからサンプリングするためにメトロポリス・ハスティングスサンプリングスキームを使用する。
論文 参考訳(メタデータ) (2022-03-24T18:52:09Z) - EdiTTS: Score-based Editing for Controllable Text-to-Speech [9.34612743192798]
EdiTTSは音声合成のためのスコアベース生成モデルに基づく市販音声編集手法である。
我々は、拡散モデルから所望の振る舞いを誘導するために、ガウス事前空間において粗大で故意に摂動を適用する。
リスニングテストは、EdiTTSがユーザの要求を満たす自然音を確実に生成できることを示した。
論文 参考訳(メタデータ) (2021-10-06T08:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。