論文の概要: Learning neural audio features without supervision
- arxiv url: http://arxiv.org/abs/2203.15519v1
- Date: Tue, 29 Mar 2022 12:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 17:06:56.745193
- Title: Learning neural audio features without supervision
- Title(参考訳): 監視なしで学習するニューラルオーディオ
- Authors: Sarthak Yadav, Neil Zeghidour
- Abstract要約: 本稿では、下流分類のための主要なアーキテクチャと協調して、事前学習可能な両方のアプローチを組み合わせる可能性について検討する。
教師付きおよび自己教師型設定で使用する場合,学習コンポーネントの特性の重大な違いを明らかにする。
- 参考スコア(独自算出の注目度): 14.526173151915662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep audio classification, traditionally cast as training a deep neural
network on top of mel-filterbanks in a supervised fashion, has recently
benefited from two independent lines of work. The first one explores "learnable
frontends", i.e., neural modules that produce a learnable time-frequency
representation, to overcome limitations of fixed features. The second one uses
self-supervised learning to leverage unprecedented scales of pre-training data.
In this work, we study the feasibility of combining both approaches, i.e.,
pre-training learnable frontend jointly with the main architecture for
downstream classification. First, we show that pretraining two previously
proposed frontends (SincNet and LEAF) on Audioset drastically improves
linear-probe performance over fixed mel-filterbanks, suggesting that learnable
time-frequency representations can benefit self-supervised pre-training even
more than supervised training. Surprisingly, randomly initialized learnable
filterbanks outperform mel-scaled initialization in the self-supervised
setting, a counter-intuitive result that questions the appropriateness of
strong priors when designing learnable filters. Through exploratory analysis of
the learned frontend components, we uncover crucial differences in properties
of these frontends when used in a supervised and self-supervised setting,
especially the affinity of self-supervised filters to diverge significantly
from the mel-scale to model a broader range of frequencies.
- Abstract(参考訳): deep audio classificationは、メルフィルターバンク上にディープニューラルネットワークをトレーニングするのが伝統的だが、最近は2つの独立した作業の恩恵を受けている。
最初のものは"学習可能なフロントエンド"、すなわち学習可能な時間周波数表現を生成するニューラルネットワークモジュールを探索し、固定された機能の制限を克服する。
2つめは、自己教師付き学習を使用して、前例のない事前トレーニングデータのスケールを活用することだ。
本研究では、下流分類の主アーキテクチャと協調して学習可能なフロントエンドを事前学習する両手法を組み合わせる可能性について検討する。
まず,従来提案されていた2つのフロントエンド(SincNetとLEAF)をAudioset上で事前学習することで,固定されたメルフィルタバンクよりも線形プローブ性能が大幅に向上することを示す。
驚くべきことに、ランダムに初期化される学習可能なフィルタバンクは、学習可能なフィルタを設計する際の強い事前の適切性に疑問を呈する、自己教師付き設定におけるメルスケールの初期化よりも優れている。
学習済みフロントエンドコンポーネントの探索的解析により,教師あり・自己教師あり設定,特に自己教師ありフィルタの親和性がメルスケールから大きく異なっており,より広い周波数範囲のモデル化が可能であることを明らかにする。
関連論文リスト
- Unrolled denoising networks provably learn optimal Bayesian inference [54.79172096306631]
我々は、近似メッセージパッシング(AMP)のアンロールに基づくニューラルネットワークの最初の厳密な学習保証を証明した。
圧縮センシングでは、製品から引き出されたデータに基づいてトレーニングを行うと、ネットワークの層がベイズAMPで使用されるのと同じデノイザーに収束することを示す。
論文 参考訳(メタデータ) (2024-09-19T17:56:16Z) - Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning [49.275450836604726]
本稿では、事前学習の有効性を大幅に向上させる、新しい周波数ベースの自己監視学習(SSL)手法を提案する。
我々は、知識蒸留によって強化された2ブランチのフレームワークを使用し、モデルがフィルタされた画像と原画像の両方を入力として取り込むことを可能にする。
論文 参考訳(メタデータ) (2024-09-16T15:10:07Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Battle of the Backbones: A Large-Scale Comparison of Pretrained Models
across Computer Vision Tasks [139.3768582233067]
Battle of the Backbones (BoB)は、ニューラルネットワークベースのコンピュータビジョンシステムのためのベンチマークツールである。
視覚変換器(ViT)と自己教師型学習(SSL)がますます人気になっている。
同じアーキテクチャと同じようなサイズの事前トレーニングデータセット上でのアップルとアプリケーションの比較では、SSLバックボーンは極めて競争力があることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T18:23:58Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Self-Supervised Training Enhances Online Continual Learning [37.91734641808391]
連続学習では、システムは壊滅的な忘れずに、非定常データストリームから段階的に学習する必要があります。
自己教師付き事前トレーニングは、教師付き学習よりも一般化する機能をもたらす可能性がある。
我々の最善のシステムは、オンライン連続学習の最先端技術よりも、クラスインクリメンタルイメージネットにおいて、トップ1の精度を14.95%向上させる。
論文 参考訳(メタデータ) (2021-03-25T17:45:27Z) - End-to-end spoken language understanding using transformer networks and
self-supervised pre-trained features [17.407912171579852]
トランスフォーマーネットワークと自己教師型事前学習は、自然言語処理(NLP)分野における最先端の成果を一貫して提供してきた。
本稿では,自己教師付き事前学習音響特徴の活用が可能なモジュール型End-to-End (E2E) SLUトランスフォーマーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-16T19:30:52Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。