論文の概要: Learning neural audio features without supervision
- arxiv url: http://arxiv.org/abs/2203.15519v1
- Date: Tue, 29 Mar 2022 12:59:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 17:06:56.745193
- Title: Learning neural audio features without supervision
- Title(参考訳): 監視なしで学習するニューラルオーディオ
- Authors: Sarthak Yadav, Neil Zeghidour
- Abstract要約: 本稿では、下流分類のための主要なアーキテクチャと協調して、事前学習可能な両方のアプローチを組み合わせる可能性について検討する。
教師付きおよび自己教師型設定で使用する場合,学習コンポーネントの特性の重大な違いを明らかにする。
- 参考スコア(独自算出の注目度): 14.526173151915662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep audio classification, traditionally cast as training a deep neural
network on top of mel-filterbanks in a supervised fashion, has recently
benefited from two independent lines of work. The first one explores "learnable
frontends", i.e., neural modules that produce a learnable time-frequency
representation, to overcome limitations of fixed features. The second one uses
self-supervised learning to leverage unprecedented scales of pre-training data.
In this work, we study the feasibility of combining both approaches, i.e.,
pre-training learnable frontend jointly with the main architecture for
downstream classification. First, we show that pretraining two previously
proposed frontends (SincNet and LEAF) on Audioset drastically improves
linear-probe performance over fixed mel-filterbanks, suggesting that learnable
time-frequency representations can benefit self-supervised pre-training even
more than supervised training. Surprisingly, randomly initialized learnable
filterbanks outperform mel-scaled initialization in the self-supervised
setting, a counter-intuitive result that questions the appropriateness of
strong priors when designing learnable filters. Through exploratory analysis of
the learned frontend components, we uncover crucial differences in properties
of these frontends when used in a supervised and self-supervised setting,
especially the affinity of self-supervised filters to diverge significantly
from the mel-scale to model a broader range of frequencies.
- Abstract(参考訳): deep audio classificationは、メルフィルターバンク上にディープニューラルネットワークをトレーニングするのが伝統的だが、最近は2つの独立した作業の恩恵を受けている。
最初のものは"学習可能なフロントエンド"、すなわち学習可能な時間周波数表現を生成するニューラルネットワークモジュールを探索し、固定された機能の制限を克服する。
2つめは、自己教師付き学習を使用して、前例のない事前トレーニングデータのスケールを活用することだ。
本研究では、下流分類の主アーキテクチャと協調して学習可能なフロントエンドを事前学習する両手法を組み合わせる可能性について検討する。
まず,従来提案されていた2つのフロントエンド(SincNetとLEAF)をAudioset上で事前学習することで,固定されたメルフィルタバンクよりも線形プローブ性能が大幅に向上することを示す。
驚くべきことに、ランダムに初期化される学習可能なフィルタバンクは、学習可能なフィルタを設計する際の強い事前の適切性に疑問を呈する、自己教師付き設定におけるメルスケールの初期化よりも優れている。
学習済みフロントエンドコンポーネントの探索的解析により,教師あり・自己教師あり設定,特に自己教師ありフィルタの親和性がメルスケールから大きく異なっており,より広い周波数範囲のモデル化が可能であることを明らかにする。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Battle of the Backbones: A Large-Scale Comparison of Pretrained Models
across Computer Vision Tasks [139.3768582233067]
Battle of the Backbones (BoB)は、ニューラルネットワークベースのコンピュータビジョンシステムのためのベンチマークツールである。
視覚変換器(ViT)と自己教師型学習(SSL)がますます人気になっている。
同じアーキテクチャと同じようなサイズの事前トレーニングデータセット上でのアップルとアプリケーションの比較では、SSLバックボーンは極めて競争力があることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T18:23:58Z) - In-Domain Self-Supervised Learning Improves Remote Sensing Image Scene
Classification [5.323049242720532]
リモートセンシング画像分類のための有望なアプローチとして,自己教師付き学習が登場している。
そこで本研究では,14の下流データセットにまたがる自己教師型事前学習戦略について検討し,その効果を評価する。
論文 参考訳(メタデータ) (2023-07-04T10:57:52Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Adaptive Memory Networks with Self-supervised Learning for Unsupervised
Anomaly Detection [54.76993389109327]
教師なし異常検出は、通常のデータのみをトレーニングすることで、目に見えない異常を検出するモデルを構築することを目的としている。
本稿では,これらの課題に対処するために,自己教師付き学習(AMSL)を用いた適応記憶ネットワーク(Adaptive Memory Network)を提案する。
AMSLには、一般的な正規パターンを学ぶための自己教師付き学習モジュールと、リッチな特徴表現を学ぶための適応型メモリ融合モジュールが組み込まれている。
論文 参考訳(メタデータ) (2022-01-03T03:40:21Z) - Self-Supervised Training Enhances Online Continual Learning [37.91734641808391]
連続学習では、システムは壊滅的な忘れずに、非定常データストリームから段階的に学習する必要があります。
自己教師付き事前トレーニングは、教師付き学習よりも一般化する機能をもたらす可能性がある。
我々の最善のシステムは、オンライン連続学習の最先端技術よりも、クラスインクリメンタルイメージネットにおいて、トップ1の精度を14.95%向上させる。
論文 参考訳(メタデータ) (2021-03-25T17:45:27Z) - End-to-end spoken language understanding using transformer networks and
self-supervised pre-trained features [17.407912171579852]
トランスフォーマーネットワークと自己教師型事前学習は、自然言語処理(NLP)分野における最先端の成果を一貫して提供してきた。
本稿では,自己教師付き事前学習音響特徴の活用が可能なモジュール型End-to-End (E2E) SLUトランスフォーマーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-16T19:30:52Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。