論文の概要: AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations
- arxiv url: http://arxiv.org/abs/2405.11093v1
- Date: Fri, 17 May 2024 21:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 19:27:00.779714
- Title: AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations
- Title(参考訳): AudioSetMix:LLM支援によるオーディオ言語データセットの強化
- Authors: David Xu,
- Abstract要約: 近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
- 参考スコア(独自算出の注目度): 1.2101820447447276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal learning in the audio-language domain has seen significant advancements in recent years. However, audio-language learning faces challenges due to limited and lower-quality data compared to image-language tasks. Existing audio-language datasets are notably smaller, and manual labeling is hindered by the need to listen to entire audio clips for accurate labeling. Our method systematically generates audio-caption pairs by augmenting audio clips with natural language labels and corresponding audio signal processing operations. Leveraging a Large Language Model, we generate descriptions of augmented audio clips with a prompt template. This scalable method produces AudioSetMix, a high-quality training dataset for text-and-audio related models. Integration of our dataset improves models performance on benchmarks by providing diversified and better-aligned examples. Notably, our dataset addresses the absence of modifiers (adjectives and adverbs) in existing datasets. By enabling models to learn these concepts, and generating hard negative examples during training, we achieve state-of-the-art performance on multiple benchmarks.
- Abstract(参考訳): 近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
既存のオーディオ言語データセットは特に小さく、手動ラベリングは、正確なラベリングのために全オーディオクリップを聴く必要性によって妨げられる。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
大規模言語モデルを用いて,プロンプトテンプレートを用いた拡張音声クリップの記述を生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
データセットの統合は、多彩で整合性の良いサンプルを提供することで、ベンチマーク上のモデルパフォーマンスを改善します。
特に、我々のデータセットは、既存のデータセットにおける修飾子(形容詞と副詞)の欠如に対処します。
モデルがこれらの概念を学習できるようにし、トレーニング中に厳しいネガティブな例を生成することで、複数のベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。
本稿では,TTAモデルに対する単純な検索拡張手法を提案する。
Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文 参考訳(メタデータ) (2023-09-14T22:35:39Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Improving Natural-Language-based Audio Retrieval with Transfer Learning
and Audio & Text Augmentations [7.817685358710508]
本稿では,録音やテキストによる記述を共有音声空間に投影するシステムを提案する。
以上の結果から, 使用済み拡張戦略は過剰適合を低減し, 検索性能の向上を図っている。
さらに、AudioCapsデータセットで事前トレーニングを行うことで、さらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-08-24T11:54:42Z) - Evaluating Off-the-Shelf Machine Listening and Natural Language Models
for Automated Audio Captioning [16.977616651315234]
キャプションシステムは、入力信号から様々な情報を識別し、自然言語で表現する必要がある。
トランスフォーマーを用いたキャプションによる市販モデルの性能評価を行った。
論文 参考訳(メタデータ) (2021-10-14T14:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。