論文の概要: Taming Data and Transformers for Scalable Audio Generation
- arxiv url: http://arxiv.org/abs/2406.19388v3
- Date: Thu, 10 Apr 2025 17:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:22:11.198997
- Title: Taming Data and Transformers for Scalable Audio Generation
- Title(参考訳): スケーラブルオーディオ生成のためのデータ処理と変換器
- Authors: Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Guha Balakrishnan, Sergey Tulyakov, Vicente Ordonez,
- Abstract要約: AutoReCap-XLは、4700万回以上のクリップを持つ、最大の環境オーディオテキストデータセットである。
AutoCapは高品質のオーディオキャプションモデルである。
GenAuはスケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャである。
- 参考スコア(独自算出の注目度): 49.54707963286065
- License:
- Abstract: The scalability of ambient sound generators is hindered by data scarcity, insufficient caption quality, and limited scalability in model architecture. This work addresses these challenges by advancing both data and model scaling. First, we propose an efficient and scalable dataset collection pipeline tailored for ambient audio generation, resulting in AutoReCap-XL, the largest ambient audio-text dataset with over 47 million clips. To provide high-quality textual annotations, we propose AutoCap, a high-quality automatic audio captioning model. By adopting a Q-Former module and leveraging audio metadata, AutoCap substantially enhances caption quality, reaching a CIDEr score of $83.2$, a $3.2\%$ improvement over previous captioning models. Finally, we propose GenAu, a scalable transformer-based audio generation architecture that we scale up to 1.25B parameters. We demonstrate its benefits from data scaling with synthetic captions as well as model size scaling. When compared to baseline audio generators trained at similar size and data scale, GenAu obtains significant improvements of $4.7\%$ in FAD score, $11.1\%$ in IS, and $13.5\%$ in CLAP score. Our code, model checkpoints, and dataset are publicly available.
- Abstract(参考訳): 環境音発生装置のスケーラビリティは、データ不足、キャプション品質の不十分、モデルアーキテクチャのスケーラビリティの制限によって妨げられる。
この作業は、データとモデルスケーリングの両方を前進させることによって、これらの課題に対処する。
まず、周囲オーディオ生成に適した効率的でスケーラブルなデータセット収集パイプラインを提案し、4700万回以上のクリップを持つ最大の環境オーディオテキストデータセットであるAutoReCap-XLを提案する。
高品質なテキストアノテーションを提供するために,高品質な音声キャプションモデルであるAutoCapを提案する。
Q-Formerモジュールを採用し、オーディオメタデータを活用することで、AutoCapはキャプションの品質を大幅に向上し、CIDErのスコアは83.2ドルとなり、以前のキャプションモデルよりも3.2.%高くなった。
最後に、拡張性のあるトランスフォーマーベースのオーディオ生成アーキテクチャであるGenAuを提案し、最大1.25Bパラメータをスケールアップする。
合成キャプションを用いたデータスケーリングとモデルサイズスケーリングのメリットを実証する。
同様の大きさとデータスケールで訓練されたベースラインオーディオジェネレータと比較して、GenAuはFADスコアで4.7\%、ISで11.1\%、CLAPスコアで13.5\%の大幅な改善を受けている。
私たちのコード、モデルチェックポイント、データセットが公開されています。
関連論文リスト
- Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。
本稿では,TTAモデルに対する単純な検索拡張手法を提案する。
Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文 参考訳(メタデータ) (2023-09-14T22:35:39Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound
Classification and Detection [43.50970305209596]
HTS-ATは、モデルサイズとトレーニング時間を短縮する階層構造を持つオーディオトランスである。
従来のCNNベースのモデルよりも、イベントローカライゼーションにおけるパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2022-02-02T04:49:14Z) - Robust Self-Supervised Audio-Visual Speech Recognition [29.526786921769613]
本稿では,Audio-Visual HuBERT(AV-HuBERT)に基づく自己教師型音声視覚音声認識フレームワークを提案する。
利用可能な最大のAVSRベンチマークデータセットであるLSS3では、ラベル付きデータの10%未満を使用して、従来の最先端(28.0%対14.1%)よりも50%優れています。
我々のアプローチは、平均して75%以上(25.8%対5.8%)のオーディオベースモデルのWERを削減する。
論文 参考訳(メタデータ) (2022-01-05T18:50:50Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。