論文の概要: FlexiAST: Flexibility is What AST Needs
- arxiv url: http://arxiv.org/abs/2307.09286v1
- Date: Tue, 18 Jul 2023 14:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 14:24:13.173867
- Title: FlexiAST: Flexibility is What AST Needs
- Title(参考訳): FlexiAST: 柔軟性はASTに必要なもの
- Authors: Jiu Feng, Mehmet Hamza Erol, Joon Son Chung, Arda Senocak
- Abstract要約: 本研究の目的は,Audio Spectrogram Transformer (AST) にパッチサイズの柔軟性を提供することである。
近年のASTの進歩は、様々な音声ベースのタスクにおいて優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 21.07980558948832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of this work is to give patch-size flexibility to Audio
Spectrogram Transformers (AST). Recent advancements in ASTs have shown superior
performance in various audio-based tasks. However, the performance of standard
ASTs degrades drastically when evaluated using different patch sizes from that
used during training. As a result, AST models are typically re-trained to
accommodate changes in patch sizes. To overcome this limitation, this paper
proposes a training procedure to provide flexibility to standard AST models
without architectural changes, allowing them to work with various patch sizes
at the inference stage - FlexiAST. This proposed training approach simply
utilizes random patch size selection and resizing of patch and positional
embedding weights. Our experiments show that FlexiAST gives similar performance
to standard AST models while maintaining its evaluation ability at various
patch sizes on different datasets for audio classification tasks.
- Abstract(参考訳): この研究の目的は、Audio Spectrogram Transformer (AST)にパッチサイズの柔軟性を提供することである。
近年のASTの進歩は、様々な音声ベースのタスクにおいて優れたパフォーマンスを示している。
しかし、標準ASTの性能は、トレーニング中に使用するパッチサイズと異なるものを用いて評価すると大幅に低下する。
その結果、ASTモデルは通常、パッチサイズの変更に対応するために再トレーニングされる。
この制限を克服するために,アーキテクチャの変更なしに標準的なASTモデルに柔軟性を提供するためのトレーニング手順を提案する。
このトレーニングアプローチでは、パッチサイズ選択とパッチと位置埋め込み重みのリサイズを単純に利用する。
実験の結果,FlexiAST は標準 AST モデルと同等の性能を示し,音声分類タスクのための様々なデータセットに対するパッチサイズの評価能力を維持した。
関連論文リスト
- ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions [15.472819870523093]
オーディオスペクトログラム変換器(AST)のようなトランスフォーマーベースのモデルは、CNNから固定サイズの入力パラダイムを継承する。
本稿では,ASTモデルを用いた可変長音声入力を,学習と推論の両方で利用するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:29:56Z) - Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Efficient Stitchable Task Adaptation [47.94819192325723]
そこで本研究では,高度調整型モデルのパレットを効率よく作成するための新しいフレームワークであるEfficient Stitchable Task Adaptation (ESTA)を提案する。
具体的には、縫合物間で低ランク更新を共有するために、パラメータ効率の高いファインチューニングを第1に調整する。
簡単なが効果的なワンステージデプロイメントパイプラインを合理化し、デプロイすべき重要な縫合を見積もる。
論文 参考訳(メタデータ) (2023-11-29T04:31:35Z) - Free Lunch: Robust Cross-Lingual Transfer via Model Checkpoint Averaging [60.79382212029304]
超多言語言語モデルはゼロショット (ZS-XLT) と少数ショット (FS-XLT) の言語間転送において強い性能を示している。
本稿では,タスクの微調整中に異なるチェックポイント(モデルスナップショット)を平均化する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T11:24:32Z) - TOAST: Transfer Learning via Attention Steering [77.83191769502763]
現在の伝達学習法は、しばしばタスク関連機能に焦点をあてることに失敗する。
タスク固有の特徴に注意を向ける新しい伝達学習アルゴリズムであるTop-Down Attention Steering(TOAST)を紹介する。
TOASTは、さまざまなきめ細かい視覚分類データセットのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-05-24T20:03:04Z) - LAST: Scalable Lattice-Based Speech Modelling in JAX [11.682949982063477]
JAX で LAttice ベースの Speech Transducer ライブラリ LAST を紹介する。
最後に、大きなWFSAにスケールするトレーニングと推論に必要な、微分可能重み付き有限状態オートマトン(WFSA)アルゴリズムを実装した。
本稿では、これらの課題に対処するためにLASTで使用される一般的なテクニックのスイートを説明し、TPUv3とV100 GPUのベンチマークでその効果を実証する。
論文 参考訳(メタデータ) (2023-04-25T20:25:37Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - Study of positional encoding approaches for Audio Spectrogram
Transformers [16.829474982595837]
本稿では,Audio Spectrogram Transformer (AST) の1成分について検討し,その性能向上のためにいくつかの変種を提案する。
条件付き位置符号化を組み込んだベストモデルでは,元のASTと比較してオーディオセットとESC-50の性能が大幅に向上した。
論文 参考訳(メタデータ) (2021-10-13T19:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。