論文の概要: Exploring Fine-Grained Audiovisual Categorization with the SSW60 Dataset
- arxiv url: http://arxiv.org/abs/2207.10664v1
- Date: Thu, 21 Jul 2022 17:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:32:01.990784
- Title: Exploring Fine-Grained Audiovisual Categorization with the SSW60 Dataset
- Title(参考訳): SSW60データセットを用いた細粒度音響視覚分類の探索
- Authors: Grant Van Horn, Rui Qian, Kimberly Wilber, Hartwig Adam, Oisin Mac
Aodha and Serge Belongie
- Abstract要約: そこで我々は,音響視覚的細粒度分類の研究を進めるために,Sapsucker Woods 60 (SSW60) という新しいベンチマークデータセットを提案する。
データセットは60種類の鳥類を対象とし、既存のデータセットからの画像と、新たな専門家によるオーディオおよびビデオデータセットで構成されている。
本研究は,映像の分類作業において,映像や音声のみを用いた場合よりも,オーディオ視覚融合法の性能が優れていることを示す。
- 参考スコア(独自算出の注目度): 27.753787269471594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new benchmark dataset, Sapsucker Woods 60 (SSW60), for advancing
research on audiovisual fine-grained categorization. While our community has
made great strides in fine-grained visual categorization on images, the
counterparts in audio and video fine-grained categorization are relatively
unexplored. To encourage advancements in this space, we have carefully
constructed the SSW60 dataset to enable researchers to experiment with
classifying the same set of categories in three different modalities: images,
audio, and video. The dataset covers 60 species of birds and is comprised of
images from existing datasets, and brand new, expert-curated audio and video
datasets. We thoroughly benchmark audiovisual classification performance and
modality fusion experiments through the use of state-of-the-art transformer
methods. Our findings show that performance of audiovisual fusion methods is
better than using exclusively image or audio based methods for the task of
video classification. We also present interesting modality transfer
experiments, enabled by the unique construction of SSW60 to encompass three
different modalities. We hope the SSW60 dataset and accompanying baselines spur
research in this fascinating area.
- Abstract(参考訳): そこで我々は,音響視覚的細粒度分類の研究を進めるためのベンチマークデータセットSapsucker Woods 60 (SSW60)を提案する。
私たちのコミュニティは、画像のきめ細かい分類に大きく貢献していますが、オーディオやビデオのきめ細かい分類は、比較的未発見です。
この分野の進歩を促進するため、我々はSSW60データセットを慎重に構築し、研究者が同じカテゴリを画像、オーディオ、ビデオの3つの異なるモードで分類することができるようにした。
データセットは60種類の鳥類を対象とし、既存のデータセットからの画像と、新たな専門家によるオーディオおよびビデオデータセットで構成されている。
我々は,最先端トランスを用いた音響視覚分類性能とモダリティ融合実験を徹底的にベンチマークする。
本研究は,映像分類作業において,映像や音声のみを用いた場合よりも,映像融合法の性能が優れていることを示す。
また,3つの異なるモダリティを包含するssw60のユニークな構成により,興味深いモダリティ伝達実験を行う。
SSW60データセットとそれに伴うベースラインが、この魅力的な領域の研究を促進することを期待しています。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Annotation-free Audio-Visual Segmentation [46.42570058385209]
追加の手動アノテーションを使わずにオーディオ・ビジュアル・タスクのための人工データを生成する新しいパイプラインを提案する。
既存の画像セグメンテーションとオーディオデータセットを活用し、画像とマスクのペアをカテゴリラベルを用いて対応するオーディオサンプルとマッチングする。
また,SAMA-AVSの軽量モデルを導入し,AVSタスクに事前訓練されたセグメントの任意のモデル(SAM)を適応させる。
論文 参考訳(メタデータ) (2023-05-18T14:52:45Z) - An Audio-Visual Dataset and Deep Learning Frameworks for Crowded Scene
Classification [58.720142291102135]
本稿では,音声視覚シーン分類(SC)の課題について述べる。
この課題において、入力ビデオは「リオト」、「ノワーズ・ストリート」、「ファイアワーク・イベント」、「ミュージック・イベント」、そして「スポーツ・アトムスフィア」の5つの実物混みのシーンのうちの1つに分類される。
論文 参考訳(メタデータ) (2021-12-16T19:48:32Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z) - An Ensemble of Convolutional Neural Networks for Audio Classification [9.174145063580882]
音声分類のためのCNNのアンサンブルを提示し、3つの無料で利用可能な音声分類データセットで検証する。
我々の知る限りでは、これは音声分類のためのCNNのアンサンブルを調査する最も広範な研究である。
論文 参考訳(メタデータ) (2020-07-15T19:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。