論文の概要: FastAST: Accelerating Audio Spectrogram Transformer via Token Merging and Cross-Model Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2406.07676v1
- Date: Tue, 11 Jun 2024 19:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 21:16:01.926653
- Title: FastAST: Accelerating Audio Spectrogram Transformer via Token Merging and Cross-Model Knowledge Distillation
- Title(参考訳): FastAST:Token Mergingとクロスモデル知識蒸留によるオーディオスペクトログラム変換器の高速化
- Authors: Swarup Ranjan Behera, Abhishek Dhiman, Karthik Gowda, Aalekhya Satya Narayani,
- Abstract要約: FastASTはToken Merging(ToMe)をAudio Spectrogram Transformer(AST)フレームワークに統合するフレームワークである。
FastASTは、オーディオスペクトログラムに類似のトークンをマージすることで、広範な再トレーニングを必要とせずに、推論速度を向上させる。
実験によると、FastASTは精度に最小限の影響でオーディオ分類のスループットを向上させることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio classification models, particularly the Audio Spectrogram Transformer (AST), play a crucial role in efficient audio analysis. However, optimizing their efficiency without compromising accuracy remains a challenge. In this paper, we introduce FastAST, a framework that integrates Token Merging (ToMe) into the AST framework. FastAST enhances inference speed without requiring extensive retraining by merging similar tokens in audio spectrograms. Furthermore, during training, FastAST brings about significant speed improvements. The experiments indicate that FastAST can increase audio classification throughput with minimal impact on accuracy. To mitigate the accuracy impact, we integrate Cross-Model Knowledge Distillation (CMKD) into the FastAST framework. Integrating ToMe and CMKD into AST results in improved accuracy compared to AST while maintaining faster inference speeds. FastAST represents a step towards real-time, resource-efficient audio analysis.
- Abstract(参考訳): 音声分類モデル、特にAudio Spectrogram Transformer(AST)は、効率的な音声分析において重要な役割を果たす。
しかし、精度を損なうことなく効率を最適化することは依然として課題である。
本稿では,Token Merging(ToMe)をASTフレームワークに統合するフレームワークであるFastASTを紹介する。
FastASTは、オーディオスペクトログラムに類似のトークンをマージすることで、広範な再トレーニングを必要とせずに、推論速度を向上させる。
さらに、トレーニング中に、FastASTは大幅なスピード改善をもたらす。
実験により、FastASTは精度に最小限の影響を与えることなく、オーディオ分類のスループットを向上できることが示された。
精度への影響を軽減するため、Cross-Model Knowledge Distillation (CMKD)をFastASTフレームワークに統合する。
ToMeとCMKDをASTに統合すると、より高速な推論速度を維持しながら、ASTと比較して精度が向上する。
FastASTは、リアルタイムでリソース効率の良いオーディオ分析への一歩である。
関連論文リスト
- ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions [15.472819870523093]
オーディオスペクトログラム変換器(AST)のようなトランスフォーマーベースのモデルは、CNNから固定サイズの入力パラダイムを継承する。
本稿では,ASTモデルを用いた可変長音声入力を,学習と推論の両方で利用するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:29:56Z) - Proactive Detection of Voice Cloning with Localized Watermarking [50.13539630769929]
本稿では,AI生成音声の局所検出に特化して設計された,最初の音声透かし技術であるAudioSealを紹介する。
AudioSealは、ローカライゼーションロスと共同でトレーニングされたジェネレータ/検出器アーキテクチャを使用して、サンプルレベルまでローカライズされた透かし検出を可能にする。
AudioSealは、実生活のオーディオ操作に対する堅牢性と、自動的および人的評価指標に基づく非知覚性の観点から、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-30T18:56:22Z) - From Coarse to Fine: Efficient Training for Audio Spectrogram
Transformers [16.90294414874585]
粗粒化モデルと変圧器モデルとの結合による音声スペクトログラム変換器の多相学習を提案する。
これらの手法の1つを利用することで、トランスフォーマーモデルは初期段階の低解像度(粗い)データから学習し、その後、カリキュラム学習戦略において高解像度のデータで微調整される。
論文 参考訳(メタデータ) (2024-01-16T14:59:37Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - Study of positional encoding approaches for Audio Spectrogram
Transformers [16.829474982595837]
本稿では,Audio Spectrogram Transformer (AST) の1成分について検討し,その性能向上のためにいくつかの変種を提案する。
条件付き位置符号化を組み込んだベストモデルでは,元のASTと比較してオーディオセットとESC-50の性能が大幅に向上した。
論文 参考訳(メタデータ) (2021-10-13T19:20:20Z) - Slow-Fast Auditory Streams For Audio Recognition [101.7520667593296]
分離可能な畳み込みと多レベル側線接続を持つ低速な聴覚ストリームを学習する。
本稿では,VGG-SoundとEPIC-KITCHENS-100という2つの異なるデータセットに対する2ストリーム提案の重要性を示す。
論文 参考訳(メタデータ) (2021-03-05T07:51:21Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。