論文の概要: WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for
Audio-Language Multimodal Research
- arxiv url: http://arxiv.org/abs/2303.17395v1
- Date: Thu, 30 Mar 2023 14:07:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:20:56.775227
- Title: WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for
Audio-Language Multimodal Research
- Title(参考訳): WavCaps:マルチモーダル研究のためのチャットGPT支援弱ラベルオーディオキャプションデータセット
- Authors: Xinhao Mei, Chutong Meng, Haohe Liu, Qiuqiang Kong, Tom Ko, Chengqi
Zhao, Mark D. Plumbley, Yuexian Zou and Wenwu Wang
- Abstract要約: 約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
- 参考スコア(独自算出の注目度): 90.01270531446059
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The advancement of audio-language (AL) multimodal learning tasks has been
significant in recent years. However, researchers face challenges due to the
costly and time-consuming collection process of existing audio-language
datasets, which are limited in size. To address this data scarcity issue, we
introduce WavCaps, the first large-scale weakly-labelled audio captioning
dataset, comprising approximately 400k audio clips with paired captions. We
sourced audio clips and their raw descriptions from web sources and a sound
event detection dataset. However, the online-harvested raw descriptions are
highly noisy and unsuitable for direct use in tasks such as automated audio
captioning. To overcome this issue, we propose a three-stage processing
pipeline for filtering noisy data and generating high-quality captions, where
ChatGPT, a large language model, is leveraged to filter and transform raw
descriptions automatically. We conduct a comprehensive analysis of the
characteristics of WavCaps dataset and evaluate it on multiple downstream
audio-language multimodal learning tasks. The systems trained on WavCaps
outperform previous state-of-the-art (SOTA) models by a significant margin. Our
aspiration is for the WavCaps dataset we have proposed to facilitate research
in audio-language multimodal learning and demonstrate the potential of
utilizing ChatGPT to enhance academic research. Our dataset and codes are
available at https://github.com/XinhaoMei/WavCaps.
- Abstract(参考訳): 近年,音声言語(AL)マルチモーダル学習タスクの進歩が注目されている。
しかし、研究者は、サイズが限られている既存のオーディオ言語データセットのコストと時間を要する収集プロセスによって、課題に直面している。
このデータ不足問題に対処するため,約400kの音声クリップとペア字幕を含む,大規模な音声キャプションデータセットであるWavCapsを紹介した。
我々は,Webソースと音声イベント検出データセットから音声クリップとその生記述を抽出した。
しかし、オンライン・ハーヴェスティングされた生の記述は非常にうるさく、自動音声キャプションなどのタスクで直接使うには不向きである。
この問題を解決するために,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成する3段階処理パイプラインを提案する。
wavcapsデータセットの特性の包括的解析を行い、複数の下流の音声言語マルチモーダル学習タスクで評価する。
WavCapsで訓練されたシステムは、従来型のSOTA(State-of-the-art)モデルを上回った。
音声言語マルチモーダル学習の促進と学術研究の強化にchatgptを活用する可能性を示すために提案するwavcapsデータセットに対する願望である。
私たちのデータセットとコードはhttps://github.com/xinhaomei/wavcapsで利用可能です。
関連論文リスト
- AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - The NeurIPS 2023 Machine Learning for Audio Workshop: Affective Audio Benchmarks and Novel Data [28.23517306589778]
NeurIPS 2023 Machine Learning for Audio Workshopは、さまざまなオーディオドメインから機械学習(ML)の専門家を集めている。
音声感情認識から音声イベント検出まで、音声駆動MLの貴重なタスクはいくつかあるが、他のML領域と比較して、コミュニティは希少である。
高品質なデータ収集は時間がかかり費用がかかるため、学術グループがしばしば最先端の戦略をより大きな、より一般化可能なデータセットに適用することは困難である。
論文 参考訳(メタデータ) (2024-03-21T00:13:59Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Audio Captioning with Composition of Acoustic and Semantic Information [1.90365714903665]
本稿では,双方向Gated Recurrent Units (BiGRU) を用いたエンコーダ・デコーダアーキテクチャを提案する。
音声特徴抽出には、ログメルエネルギー機能、VGGish埋め込み、事前訓練されたオーディオニューラルネットワーク(PANN)埋め込みを用いる。
提案手法は,様々な評価指標において,最先端の音声キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-05-13T15:30:14Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。