論文の概要: Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2211.04772v3
- Date: Fri, 23 Jun 2023 07:21:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 17:45:48.365955
- Title: Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge
Distillation
- Title(参考訳): Transformer-to-CNN知識蒸留による大規模オーディオタギングの効率化
- Authors: Florian Schmid, Khaled Koutini and Gerhard Widmer
- Abstract要約: 高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供しています。
- 参考スコア(独自算出の注目度): 6.617487928813374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio Spectrogram Transformer models rule the field of Audio Tagging,
outrunning previously dominating Convolutional Neural Networks (CNNs). Their
superiority is based on the ability to scale up and exploit large-scale
datasets such as AudioSet. However, Transformers are demanding in terms of
model size and computational requirements compared to CNNs. We propose a
training procedure for efficient CNNs based on offline Knowledge Distillation
(KD) from high-performing yet complex transformers. The proposed training
schema and the efficient CNN design based on MobileNetV3 results in models
outperforming previous solutions in terms of parameter and computational
efficiency and prediction performance. We provide models of different
complexity levels, scaling from low-complexity models up to a new
state-of-the-art performance of .483 mAP on AudioSet. Source Code available at:
https://github.com/fschmid56/EfficientAT
- Abstract(参考訳): オーディオスペクトログラムトランスフォーマーモデルは、以前支配していた畳み込みニューラルネットワーク(cnns)を駆逐する、オーディオタグの分野を支配している。
彼らの優位性は、audiosetのような大規模データセットをスケールアップして活用する能力に基づいている。
しかし、トランスフォーマーはcnnと比較してモデルサイズと計算要求の点で要求されている。
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
提案するトレーニングスキーマとmobilenetv3に基づく効率的なcnn設計は、パラメータや計算効率、予測性能の観点から、以前のソリューションを上回っている。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供する。
ソースコード https://github.com/fschmid56/EfficientAT
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio
Models [4.803510486360358]
現在の一般的なAudio Spectrogram Transformersは、CNNと比較して計算複雑性の面で要求されている。
動的非線形性, 動的畳み込み, 注意機構からなる動的CNNブロックを導入する。
実験の結果,導入した動的CNNはダウンストリームタスクの性能が向上し,スケールアップが良好であることが示唆された。
論文 参考訳(メタデータ) (2023-10-24T09:08:20Z) - A Lightweight CNN-Transformer Model for Learning Traveling Salesman
Problems [0.0]
CNN-Transformerモデルは、CNN埋め込み層を用いて入力データから空間的特徴をよりよく学習することができる。
提案モデルは,実世界のデータセットで最高の性能を示す。
論文 参考訳(メタデータ) (2023-05-03T04:28:10Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Learning General Audio Representations with Large-Scale Training of
Patchout Audio Transformers [6.002503434201551]
大規模データセットで学習した音声変換器を用いて汎用表現を学習する。
その結果,音声変換器で抽出した表現はCNN表現よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T08:39:12Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - Efficient Training of Audio Transformers with Patchout [7.073210405344709]
音声スペクトログラム上での変換器の最適化と正規化を行う新しい手法を提案する。
提案したモデルは、Audioset上で新しい最先端のパフォーマンスを実現し、単一のコンシューマグレードGPUでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-11T08:07:50Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。