論文の概要: Learning General Audio Representations with Large-Scale Training of
Patchout Audio Transformers
- arxiv url: http://arxiv.org/abs/2211.13956v1
- Date: Fri, 25 Nov 2022 08:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 18:58:44.195113
- Title: Learning General Audio Representations with Large-Scale Training of
Patchout Audio Transformers
- Title(参考訳): パッチアウトオーディオトランスフォーマの大規模トレーニングによる一般音声表現の学習
- Authors: Khaled Koutini, Shahed Masoudian, Florian Schmid, Hamid Eghbal-zadeh,
Jan Schl\"uter, Gerhard Widmer
- Abstract要約: 大規模データセットで学習した音声変換器を用いて汎用表現を学習する。
その結果,音声変換器で抽出した表現はCNN表現よりも優れていた。
- 参考スコア(独自算出の注目度): 6.002503434201551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of supervised deep learning methods is largely due to their
ability to learn relevant features from raw data. Deep Neural Networks (DNNs)
trained on large-scale datasets are capable of capturing a diverse set of
features, and learning a representation that can generalize onto unseen tasks
and datasets that are from the same domain. Hence, these models can be used as
powerful feature extractors, in combination with shallower models as
classifiers, for smaller tasks and datasets where the amount of training data
is insufficient for learning an end-to-end model from scratch. During the past
years, Convolutional Neural Networks (CNNs) have largely been the method of
choice for audio processing. However, recently attention-based transformer
models have demonstrated great potential in supervised settings, outperforming
CNNs. In this work, we investigate the use of audio transformers trained on
large-scale datasets to learn general-purpose representations. We study how the
different setups in these audio transformers affect the quality of their
embeddings. We experiment with the models' time resolution, extracted embedding
level, and receptive fields in order to see how they affect performance on a
variety of tasks and datasets, following the HEAR 2021 NeurIPS challenge
evaluation setup. Our results show that representations extracted by audio
transformers outperform CNN representations. Furthermore, we will show that
transformers trained on Audioset can be extremely effective representation
extractors for a wide range of downstream tasks.
- Abstract(参考訳): 教師付きディープラーニング手法の成功は、生データから関連する特徴を学習する能力によるところが大きい。
大規模データセットでトレーニングされたDeep Neural Networks(DNN)は、さまざまな機能のセットをキャプチャし、同じドメインに属する見えないタスクやデータセットに一般化可能な表現を学ぶことができる。
したがって、これらのモデルは、より浅いモデルを分類器として組み合わせて、より小さなタスクやデータセットに対して強力な特徴抽出器として使用できる。
過去数年間、畳み込みニューラルネットワーク(CNN)は、主にオーディオ処理の方法として選択されてきた。
しかし、近年の注意に基づくトランスフォーマーモデルは、cnnを上回って監視された設定において大きな可能性を秘めている。
本研究では,大規模データセットで訓練された音声トランスフォーマーを用いて汎用表現を学習する。
これらのオーディオ変換器の異なる構成が、組込み品質に与える影響について検討する。
我々は,HEAR 2021 NeurIPSチャレンジ評価設定に従って,モデルの時間分解能,埋め込みレベル,受容領域を実験し,それらが各種タスクやデータセットのパフォーマンスに与える影響を検証した。
その結果,音声変換器で抽出した表現はCNN表現よりも優れていた。
さらに、Audiosetでトレーニングされた変換器は、幅広い下流タスクに対して非常に効果的な表現抽出器であることを示す。
関連論文リスト
- Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge
Distillation [6.617487928813374]
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供しています。
論文 参考訳(メタデータ) (2022-11-09T09:58:22Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Do sound event representations generalize to other audio tasks? A case
study in audio transfer learning [20.572846660950812]
本稿では,大規模音響イベント検出データセットを用いて学習したニューラルネットワークから得られた音声表現の伝達学習能力について検討する。
このような単純な線形移動は、下流のタスクで高い性能を達成するのに十分強力であることを示す。
論文 参考訳(メタデータ) (2021-06-21T18:04:59Z) - Audio Transformers:Transformer Architectures For Large Scale Audio
Understanding. Adieu Convolutions [6.370905925442655]
畳み込み層のないトランスフォーマーアーキテクチャを生音声信号に適用することを提案する。
私達のモデルは最先端の結果を作り出すためにconvolutionalモデルより優秀です。
畳み込みネットワークにインスパイアされたプーリングなどの手法を用いてトランスフォーマーアーキテクチャの性能をさらに向上する。
論文 参考訳(メタデータ) (2021-05-01T19:38:30Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - High-Fidelity Audio Generation and Representation Learning with Guided
Adversarial Autoencoder [2.6770746621108654]
GAAE(Guided Adversarial Autoencoder)と呼ばれる新しいオートエンコーダモデルを提案する。
提案モデルでは,実際の音響サンプルと区別できない品質の音声を生成できる。
論文 参考訳(メタデータ) (2020-06-01T12:19:32Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。