論文の概要: Taming Data and Transformers for Audio Generation
- arxiv url: http://arxiv.org/abs/2406.19388v1
- Date: Thu, 27 Jun 2024 17:58:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:09:01.958737
- Title: Taming Data and Transformers for Audio Generation
- Title(参考訳): 音声生成のためのデータ処理と変換器
- Authors: Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Guha Balakrishnan, Sergey Tulyakov, Vicente Ordonez,
- Abstract要約: 高品質で効率的な音声キャプションモデルであるAutoCapを提案する。
次に、AutoCapを使用して既存のデータセットからクリップをキャプションし、高品質なキャプションを備えた761,000のオーディオクリップを取得します。
第2に、スケーラブルなトランスフォーマーベースオーディオ生成アーキテクチャであるGenAuを提案する。
- 参考スコア(独自算出の注目度): 49.54707963286065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating ambient sounds and effects is a challenging problem due to data scarcity and often insufficient caption quality, making it difficult to employ large-scale generative models for the task. In this work, we tackle the problem by introducing two new models. First, we propose AutoCap, a high-quality and efficient automatic audio captioning model. We show that by leveraging metadata available with the audio modality, we can substantially improve the quality of captions. AutoCap reaches CIDEr score of 83.2, marking a 3.2% improvement from the best available captioning model at four times faster inference speed. We then use AutoCap to caption clips from existing datasets, obtaining 761,000 audio clips with high-quality captions, forming the largest available audio-text dataset. Second, we propose GenAu, a scalable transformer-based audio generation architecture that we scale up to 1.25B parameters and train with our new dataset. When compared to state-of-the-art audio generators, GenAu obtains significant improvements of 15.7% in FAD score, 22.7% in IS, and 13.5% in CLAP score, indicating significantly improved quality of generated audio compared to previous works. This shows that the quality of data is often as important as its quantity. Besides, since AutoCap is fully automatic, new audio samples can be added to the training dataset, unlocking the training of even larger generative models for audio synthesis.
- Abstract(参考訳): データ不足とキャプションの品質の不足のため、環境音や効果の生成は難しい問題であり、そのタスクに大規模な生成モデルを使用することが困難である。
本研究では,2つの新しいモデルを導入することでこの問題に対処する。
まず,高品質かつ効率的な音声キャプションモデルであるAutoCapを提案する。
メタデータを音声モダリティで活用することにより,キャプションの品質を大幅に向上させることができることを示す。
AutoCapはCIDErスコア83.2に達し、最高のキャプションモデルから4倍高速な推論速度で3.2%向上した。
次に、AutoCapを使用して既存のデータセットのクリップをキャプションし、高品質なキャプションを備えた761,000のオーディオクリップを取得し、利用可能な最大のオーディオテキストデータセットを作成します。
第2に、スケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャであるGenAuを提案し、最大1.25Bのパラメータをスケールアップし、新しいデータセットでトレーニングする。
最先端のオーディオジェネレータと比較すると、GenAuはFADスコアが15.7%、ISが22.7%、CLAPスコアが13.5%で大幅に改善され、前作に比べてオーディオの品質が大幅に向上した。
これは、データの質が量と同じくらい重要であることを示している。
さらに、AutoCapは完全に自動化されているため、トレーニングデータセットに新たなオーディオサンプルを追加することで、オーディオ合成のためのさらに大きな生成モデルのトレーニングをアンロックすることができる。
関連論文リスト
- Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。
本稿では,TTAモデルに対する単純な検索拡張手法を提案する。
Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文 参考訳(メタデータ) (2023-09-14T22:35:39Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound
Classification and Detection [43.50970305209596]
HTS-ATは、モデルサイズとトレーニング時間を短縮する階層構造を持つオーディオトランスである。
従来のCNNベースのモデルよりも、イベントローカライゼーションにおけるパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2022-02-02T04:49:14Z) - Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文 参考訳(メタデータ) (2022-01-05T18:50:50Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。