論文の概要: ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions
- arxiv url: http://arxiv.org/abs/2407.08691v1
- Date: Thu, 11 Jul 2024 17:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:21:02.621495
- Title: ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions
- Title(参考訳): ElasticAST:全ての長さと解像度のオーディオスペクトログラム変換器
- Authors: Jiu Feng, Mehmet Hamza Erol, Joon Son Chung, Arda Senocak,
- Abstract要約: オーディオスペクトログラム変換器(AST)のようなトランスフォーマーベースのモデルは、CNNから固定サイズの入力パラダイムを継承する。
本稿では,ASTモデルを用いた可変長音声入力を,学習と推論の両方で利用するためのアプローチを提案する。
- 参考スコア(独自算出の注目度): 15.472819870523093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have rapidly overtaken CNN-based architectures as the new standard in audio classification. Transformer-based models, such as the Audio Spectrogram Transformers (AST), also inherit the fixed-size input paradigm from CNNs. However, this leads to performance degradation for ASTs in the inference when input lengths vary from the training. This paper introduces an approach that enables the use of variable-length audio inputs with AST models during both training and inference. By employing sequence packing, our method ElasticAST, accommodates any audio length during training, thereby offering flexibility across all lengths and resolutions at the inference. This flexibility allows ElasticAST to maintain evaluation capabilities at various lengths or resolutions and achieve similar performance to standard ASTs trained at specific lengths or resolutions. Moreover, experiments demonstrate ElasticAST's better performance when trained and evaluated on native-length audio datasets.
- Abstract(参考訳): トランスフォーマーは、CNNベースのアーキテクチャをオーディオ分類の新しい標準として急速に追い越してきた。
オーディオスペクトログラム変換器(AST)のようなトランスフォーマーベースのモデルは、CNNから固定サイズの入力パラダイムを継承する。
しかし,入力長がトレーニングによって異なる場合,ASTの性能劣化が生じる。
本稿では,ASTモデルを用いた可変長音声入力を,学習と推論の両方で利用するためのアプローチを提案する。
シーケンスパッキングを用いることで、トレーニング中の任意のオーディオ長を許容し、推論におけるすべての長さと解像度の柔軟性を提供する。
この柔軟性により、ElasticASTは様々な長さや解像度で評価機能を維持でき、特定の長さや解像度でトレーニングされた標準ASTと同じようなパフォーマンスを実現することができる。
さらに、ネイティブの長さのオーディオデータセットをトレーニングし、評価する際のElasticASTのパフォーマンスも向上している。
関連論文リスト
- Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - From Coarse to Fine: Efficient Training for Audio Spectrogram
Transformers [16.90294414874585]
粗粒化モデルと変圧器モデルとの結合による音声スペクトログラム変換器の多相学習を提案する。
これらの手法の1つを利用することで、トランスフォーマーモデルは初期段階の低解像度(粗い)データから学習し、その後、カリキュラム学習戦略において高解像度のデータで微調整される。
論文 参考訳(メタデータ) (2024-01-16T14:59:37Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - FlexiAST: Flexibility is What AST Needs [21.07980558948832]
本研究の目的は,Audio Spectrogram Transformer (AST) にパッチサイズの柔軟性を提供することである。
近年のASTの進歩は、様々な音声ベースのタスクにおいて優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-07-18T14:30:47Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - Study of positional encoding approaches for Audio Spectrogram
Transformers [16.829474982595837]
本稿では,Audio Spectrogram Transformer (AST) の1成分について検討し,その性能向上のためにいくつかの変種を提案する。
条件付き位置符号化を組み込んだベストモデルでは,元のASTと比較してオーディオセットとESC-50の性能が大幅に向上した。
論文 参考訳(メタデータ) (2021-10-13T19:20:20Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。