論文の概要: VGGSound: A Large-scale Audio-Visual Dataset
- arxiv url: http://arxiv.org/abs/2004.14368v2
- Date: Fri, 25 Sep 2020 00:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 14:36:30.948906
- Title: VGGSound: A Large-scale Audio-Visual Dataset
- Title(参考訳): VGGSound:大規模オーディオ・ビジュアル・データセット
- Authors: Honglie Chen, Weidi Xie, Andrea Vedaldi, Andrew Zisserman
- Abstract要約: オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
- 参考スコア(独自算出の注目度): 160.1604237188594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our goal is to collect a large-scale audio-visual dataset with low label
noise from videos in the wild using computer vision techniques. The resulting
dataset can be used for training and evaluating audio recognition models. We
make three contributions. First, we propose a scalable pipeline based on
computer vision techniques to create an audio dataset from open-source media.
Our pipeline involves obtaining videos from YouTube; using image classification
algorithms to localize audio-visual correspondence; and filtering out ambient
noise using audio verification. Second, we use this pipeline to curate the
VGGSound dataset consisting of more than 210k videos for 310 audio classes.
Third, we investigate various Convolutional Neural Network~(CNN) architectures
and aggregation approaches to establish audio recognition baselines for our new
dataset. Compared to existing audio datasets, VGGSound ensures audio-visual
correspondence and is collected under unconstrained conditions. Code and the
dataset are available at http://www.robots.ox.ac.uk/~vgg/data/vggsound/
- Abstract(参考訳): 我々のゴールは、コンピュータビジョン技術を用いて、野生の動画からラベルの低い大規模オーディオ視覚データセットを収集することである。
得られたデータセットは、オーディオ認識モデルのトレーニングと評価に使用することができる。
我々は3つの貢献をした。
まず,オープンソースのメディアから音声データセットを作成するために,コンピュータビジョン技術に基づくスケーラブルなパイプラインを提案する。
パイプラインは、youtubeからビデオを取得し、画像分類アルゴリズムを使用して音声と視覚の対応をローカライズし、オーディオ検証を使用して周囲のノイズをフィルタリングする。
第2に、このパイプラインを使用して、310のオーディオクラス用の210k以上のビデオからなるVGGSoundデータセットをキュレートする。
第3に,様々な畳み込みニューラルネットワーク~(cnn)アーキテクチャとアグリゲーションアプローチを調査し,新たなデータセットのための音声認識ベースラインを確立する。
既存の音声データセットと比較して、VGGSoundは音声と視覚の対応を保証し、制約のない条件下で収集する。
コードとデータセットはhttp://www.robots.ox.uk/~vgg/data/vggsound/で入手できる。
関連論文リスト
- CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - A dataset for Audio-Visual Sound Event Detection in Movies [33.59510253345295]
サブタイトルアラインド・ムービー・サウンド(SAM-S)と呼ばれる音声イベントのデータセットを提示する。
430本の映画から110K以上のオーディオイベントを自動的にマイニングするために、公開可能なクローズド・キャプション・トランスクリプトを使用します。
音声イベントを分類するためには,音,ソース,品質の3つの次元を識別し,245音の最終分類法を作成するためのステップを提示する。
論文 参考訳(メタデータ) (2023-02-14T19:55:39Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。