論文の概要: Efficient Training of Audio Transformers with Patchout
- arxiv url: http://arxiv.org/abs/2110.05069v1
- Date: Mon, 11 Oct 2021 08:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 20:52:50.687938
- Title: Efficient Training of Audio Transformers with Patchout
- Title(参考訳): パッチアウトによるオーディオトランスフォーマの効率的な訓練
- Authors: Khaled Koutini, Jan Schl\"uter, Hamid Eghbal-zadeh, Gerhard Widmer
- Abstract要約: 音声スペクトログラム上での変換器の最適化と正規化を行う新しい手法を提案する。
提案したモデルは、Audioset上で新しい最先端のパフォーマンスを実現し、単一のコンシューマグレードGPUでトレーニングすることができる。
- 参考スコア(独自算出の注目度): 7.073210405344709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The great success of transformer-based models in natural language processing
(NLP) has led to various attempts at adapting these architectures to other
domains such as vision and audio. Recent work has shown that transformers can
outperform Convolutional Neural Networks (CNNs) on vision and audio tasks.
However, one of the main shortcomings of transformer models, compared to the
well-established CNNs, is the computational complexity. Compute and memory
complexity grow quadratically with the input length. Therefore, there has been
extensive work on optimizing transformers, but often at the cost of lower
predictive performance. In this work, we propose a novel method to optimize and
regularize transformers on audio spectrograms. The proposed models achieve a
new state-of-the-art performance on Audioset and can be trained on a single
consumer-grade GPU. Furthermore, we propose a transformer model that
outperforms CNNs in terms of both performance and training speed.
- Abstract(参考訳): 自然言語処理(NLP)におけるトランスフォーマーモデルの大きな成功は、これらのアーキテクチャを視覚やオーディオなどの他の領域に適応させる様々な試みにつながっている。
最近の研究は、トランスフォーマーが視覚やオーディオタスクにおいて畳み込みニューラルネットワーク(CNN)より優れていることを示している。
しかし、トランスフォーマーモデルの主な欠点の1つは、確立されたcnnと比較して計算の複雑さである。
計算とメモリの複雑さは入力長と二乗的に増加する。
そのため、変圧器の最適化には幅広い研究がなされているが、しばしば予測性能の低下を犠牲にしている。
本研究では,オーディオスペクトログラム上でトランスフォーマを最適化し,正則化する新しい手法を提案する。
提案したモデルは、Audioset上で新しい最先端のパフォーマンスを実現し、単一のコンシューマグレードGPUでトレーニングすることができる。
さらに,性能とトレーニング速度の両面でCNNを上回ったトランスフォーマーモデルを提案する。
関連論文リスト
- From Coarse to Fine: Efficient Training for Audio Spectrogram
Transformers [16.90294414874585]
粗粒化モデルと変圧器モデルとの結合による音声スペクトログラム変換器の多相学習を提案する。
これらの手法の1つを利用することで、トランスフォーマーモデルは初期段階の低解像度(粗い)データから学習し、その後、カリキュラム学習戦略において高解像度のデータで微調整される。
論文 参考訳(メタデータ) (2024-01-16T14:59:37Z) - Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio
Models [4.803510486360358]
現在の一般的なAudio Spectrogram Transformersは、CNNと比較して計算複雑性の面で要求されている。
動的非線形性, 動的畳み込み, 注意機構からなる動的CNNブロックを導入する。
実験の結果,導入した動的CNNはダウンストリームタスクの性能が向上し,スケールアップが良好であることが示唆された。
論文 参考訳(メタデータ) (2023-10-24T09:08:20Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge
Distillation [6.617487928813374]
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供しています。
論文 参考訳(メタデータ) (2022-11-09T09:58:22Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - Audio Transformers:Transformer Architectures For Large Scale Audio
Understanding. Adieu Convolutions [6.370905925442655]
畳み込み層のないトランスフォーマーアーキテクチャを生音声信号に適用することを提案する。
私達のモデルは最先端の結果を作り出すためにconvolutionalモデルより優秀です。
畳み込みネットワークにインスパイアされたプーリングなどの手法を用いてトランスフォーマーアーキテクチャの性能をさらに向上する。
論文 参考訳(メタデータ) (2021-05-01T19:38:30Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。