論文の概要: Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation
- arxiv url: http://arxiv.org/abs/2305.18474v1
- Date: Mon, 29 May 2023 10:41:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:36:14.268586
- Title: Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation
- Title(参考訳): Make-An-Audio 2: 一時的なテキスト・ツー・オーディオ生成
- Authors: Jiawei Huang, Yi Ren, Rongjie Huang, Dongchao Yang, Zhenhui Ye, Chen
Zhang, Jinglin Liu, Xiang Yin, Zejun Ma, Zhou Zhao
- Abstract要約: 大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
- 参考スコア(独自算出の注目度): 72.7915031238824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large diffusion models have been successful in text-to-audio (T2A) synthesis
tasks, but they often suffer from common issues such as semantic misalignment
and poor temporal consistency due to limited natural language understanding and
data scarcity. Additionally, 2D spatial structures widely used in T2A works
lead to unsatisfactory audio quality when generating variable-length audio
samples since they do not adequately prioritize temporal information. To
address these challenges, we propose Make-an-Audio 2, a latent diffusion-based
T2A method that builds on the success of Make-an-Audio. Our approach includes
several techniques to improve semantic alignment and temporal consistency:
Firstly, we use pre-trained large language models (LLMs) to parse the text into
structured <event & order> pairs for better temporal information capture. We
also introduce another structured-text encoder to aid in learning semantic
alignment during the diffusion denoising process. To improve the performance of
variable length generation and enhance the temporal information extraction, we
design a feed-forward Transformer-based diffusion denoiser. Finally, we use
LLMs to augment and transform a large amount of audio-label data into
audio-text datasets to alleviate the problem of scarcity of temporal data.
Extensive experiments show that our method outperforms baseline models in both
objective and subjective metrics, and achieves significant gains in temporal
information understanding, semantic consistency, and sound quality.
- Abstract(参考訳): 大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功しているが、しばしば、自然言語の理解やデータ不足による意味的ミスアライメントや時間的一貫性の低下といった共通の問題に悩まされる。
さらに、T2A作品で広く使われている2次元空間構造は、時間情報を適切に優先順位付けしていないため、可変長オーディオサンプルを生成する際に、満足のいく音質をもたらす。
これらの課題に対処するため,我々はMake-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
まず、事前訓練された大規模言語モデル(llm)を使用して、テキストを構造化された<event & order>ペアに解析し、時間的情報収集を改善する。
また,拡散分節化過程における意味的アライメント学習を支援する別の構造化テキストエンコーダも導入する。
可変長生成の性能向上と時間情報抽出の向上を目的として,フィードフォワードトランスフォーマーを用いた拡散デノイザの設計を行った。
最後に、大量の音声ラベルデータを音声テキストデータセットに拡張・変換するためにllmを使用し、時間的データの不足の問題を軽減する。
実験の結果,本手法は主観的,主観的両指標のベースラインモデルより優れ,時間的情報理解,意味的整合性,音質に有意な向上が得られた。
関連論文リスト
- OMCAT: Omni Context Aware Transformer [27.674943980306423]
OCTAVは、オーディオとビデオ間のイベント遷移をキャプチャするために設計された、新しいデータセットである。
OMCATはRoTEを活用する強力なモデルであり、時間依存タスクにおける時間的グラウンドリングと計算効率を向上させる。
本稿では,AVQA(Audio-Visual Question Answering)タスクとOCTAVベンチマークを用いて,時間的推論とモーダルアライメントの大幅な向上を示す。
論文 参考訳(メタデータ) (2024-10-15T23:16:28Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Auffusion: Leveraging the Power of Diffusion and Large Language Models
for Text-to-Audio Generation [13.626626326590086]
本稿では,T2Iモデルフレームワークをテキスト・トゥ・オーディオ(TTA)タスクに適用したテキスト・トゥ・イメージ(T2I)システムであるAuffusionを紹介する。
評価の結果,Auffusionは限られたデータと計算資源を用いて,従来のTTAアプローチを超越していることがわかった。
以上の結果から,Auffusionはテキスト記述と正確に一致した音声を生成する能力に優れていたことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-02T05:42:14Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - Two-Pass Low Latency End-to-End Spoken Language Understanding [36.81762807197944]
我々は,E2E-SLUフレームワーク内にラベル付きテキストデータに基づいて事前学習した言語モデルを組み込んで,強力な意味表現を構築した。
本研究では,第1パスの音声数秒の音響情報を用いて低遅延予測を行う2パスSLUシステムを開発した。
私たちのコードとモデルは、ESPnet-SLUツールキットの一部として公開されています。
論文 参考訳(メタデータ) (2022-07-14T05:50:16Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。