論文の概要: Unsupervised Discriminative Learning of Sounds for Audio Event
Classification
- arxiv url: http://arxiv.org/abs/2105.09279v2
- Date: Thu, 20 May 2021 10:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 10:59:28.214423
- Title: Unsupervised Discriminative Learning of Sounds for Audio Event
Classification
- Title(参考訳): 音声イベント分類のための教師なし識別学習
- Authors: Sascha Hornauer, Ke Li, Stella X. Yu, Shabnam Ghaffarzadegan, Liu Ren
- Abstract要約: ネットワークベースの音声イベント分類は、ImageNetのようなビジュアルデータに対する事前学習モデルの利点を示している。
我々は,教師なしモデルの事前トレーニングを音声データのみに限定し,ImageNetの事前トレーニングによるオンパーパフォーマンスを実現する,高速で効果的な代替手段を示す。
- 参考スコア(独自算出の注目度): 43.81789898864507
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent progress in network-based audio event classification has shown the
benefit of pre-training models on visual data such as ImageNet. While this
process allows knowledge transfer across different domains, training a model on
large-scale visual datasets is time consuming. On several audio event
classification benchmarks, we show a fast and effective alternative that
pre-trains the model unsupervised, only on audio data and yet delivers on-par
performance with ImageNet pre-training. Furthermore, we show that our
discriminative audio learning can be used to transfer knowledge across audio
datasets and optionally include ImageNet pre-training.
- Abstract(参考訳): ネットワークベースの音声イベント分類の最近の進歩は、ImageNetのようなビジュアルデータに対する事前学習モデルの利点を示している。
このプロセスは、異なるドメイン間での知識伝達を可能にするが、大規模なビジュアルデータセット上でモデルをトレーニングするのは時間を要する。
いくつかのオーディオイベント分類ベンチマークでは、教師なしのモデルを事前訓練する高速で効果的な代替手段が示され、これは音声データにのみ依存するが、ImageNetの事前訓練でオンパーのパフォーマンスを提供する。
さらに、我々の識別学習は、音声データセット間で知識を伝達し、オプションでImageNet事前学習を組み込むことができることを示す。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Transfer Learning for Passive Sonar Classification using Pre-trained Audio and ImageNet Models [39.85805843651649]
本研究では,事前学習型Audio Neural Networks(PANNs)とImageNet事前学習型モデルを比較した。
また, 受動的ソナー分類において, ImageNet事前学習モデルの方が若干優れていた。
論文 参考訳(メタデータ) (2024-09-20T20:13:45Z) - CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。
本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。
AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-08-04T07:48:12Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Audio-Visual Scene Classification Using A Transfer Learning Based Joint
Optimization Strategy [26.975596225131824]
AVSCタスクの入力として音響特徴と生画像を直接利用する共同トレーニングフレームワークを提案する。
具体的には、事前学習した画像モデルの底層をビジュアルエンコーダとして検索し、トレーニング中にシーン分類器と1D-CNNベースの音響エンコーダを共同で最適化する。
論文 参考訳(メタデータ) (2022-04-25T03:37:02Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。