論文の概要: From Coarse to Fine: Efficient Training for Audio Spectrogram
Transformers
- arxiv url: http://arxiv.org/abs/2401.08415v1
- Date: Tue, 16 Jan 2024 14:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 09:22:51.696998
- Title: From Coarse to Fine: Efficient Training for Audio Spectrogram
Transformers
- Title(参考訳): 粗い音から細かい音へ:音声スペクトログラム変換器の効率的な訓練
- Authors: Jiu Feng, Mehmet Hamza Erol, Joon Son Chung, Arda Senocak
- Abstract要約: 粗粒化モデルと変圧器モデルとの結合による音声スペクトログラム変換器の多相学習を提案する。
これらの手法の1つを利用することで、トランスフォーマーモデルは初期段階の低解像度(粗い)データから学習し、その後、カリキュラム学習戦略において高解像度のデータで微調整される。
- 参考スコア(独自算出の注目度): 16.90294414874585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have become central to recent advances in audio classification.
However, training an audio spectrogram transformer, e.g. AST, from scratch can
be resource and time-intensive. Furthermore, the complexity of transformers
heavily depends on the input audio spectrogram size. In this work, we aim to
optimize AST training by linking to the resolution in the time-axis. We
introduce multi-phase training of audio spectrogram transformers by connecting
the seminal idea of coarse-to-fine with transformer models. To achieve this, we
propose a set of methods for temporal compression. By employing one of these
methods, the transformer model learns from lower-resolution (coarse) data in
the initial phases, and then is fine-tuned with high-resolution data later in a
curriculum learning strategy. Experimental results demonstrate that the
proposed training mechanism for AST leads to improved (or on-par) performance
with faster convergence, i.e. requiring fewer computational resources and less
time. This approach is also generalizable to other AST-based methods regardless
of their learning paradigms.
- Abstract(参考訳): トランスフォーマーは、オーディオ分類の最近の進歩の中心となっている。
しかし、ASTなどのオーディオスペクトログラム変換器をスクラッチからトレーニングすることは、リソースと時間を要する可能性がある。
さらに、変換器の複雑さは入力オーディオスペクトログラムのサイズに大きく依存する。
本研究では,時間軸の解像度にリンクすることでASTトレーニングを最適化することを目的とする。
本稿では,粗面から細部までをトランスフォーマモデルと結びつけることで,音声スペクトログラムトランスフォーマの多相訓練を提案する。
そこで本研究では,時間圧縮の一手法を提案する。
これらの方法の1つを用いることで、トランスフォーマーモデルは、初期段階の低分解能(コア)データから学び、その後、カリキュラム学習戦略において高分解能データで微調整される。
実験結果から,ASTのトレーニング機構は,より高速な収束,すなわち計算資源の削減と時間短縮による性能向上(あるいはオンパー)につながることが示された。
このアプローチは、学習パラダイムに関係なく、他のASTベースのメソッドにも一般化可能である。
関連論文リスト
- ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions [15.472819870523093]
オーディオスペクトログラム変換器(AST)のようなトランスフォーマーベースのモデルは、CNNから固定サイズの入力パラダイムを継承する。
本稿では,ASTモデルを用いた可変長音声入力を,学習と推論の両方で利用するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:29:56Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - A Survey on Efficient Training of Transformers [72.31868024970674]
この調査は、トランスフォーマーの効率的なトレーニングに関する最初の体系的な概要を提供する。
トレーニング中の中間テンソルの計算コストとメモリコストを削減できる手法と,ハードウェア/アルゴリズムの共同設計手法を分析し比較する。
論文 参考訳(メタデータ) (2023-02-02T13:58:18Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - Study of positional encoding approaches for Audio Spectrogram
Transformers [16.829474982595837]
本稿では,Audio Spectrogram Transformer (AST) の1成分について検討し,その性能向上のためにいくつかの変種を提案する。
条件付き位置符号化を組み込んだベストモデルでは,元のASTと比較してオーディオセットとESC-50の性能が大幅に向上した。
論文 参考訳(メタデータ) (2021-10-13T19:20:20Z) - Efficient Training of Audio Transformers with Patchout [7.073210405344709]
音声スペクトログラム上での変換器の最適化と正規化を行う新しい手法を提案する。
提案したモデルは、Audioset上で新しい最先端のパフォーマンスを実現し、単一のコンシューマグレードGPUでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-11T08:07:50Z) - Audiomer: A Convolutional Transformer for Keyword Spotting [0.0]
本稿では,1D Residual NetworksとPerformer Attentionを組み合わせることで,キーワードスポッティングにおける最先端のパフォーマンスを実現するAudiomerを紹介する。
Audiomerは、計算制約のあるデバイスへのデプロイと、より小さなデータセットでのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-09-21T15:28:41Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。