論文の概要: AAT: Adapting Audio Transformer for Various Acoustics Recognition Tasks
- arxiv url: http://arxiv.org/abs/2401.10544v1
- Date: Fri, 19 Jan 2024 08:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 16:32:00.058844
- Title: AAT: Adapting Audio Transformer for Various Acoustics Recognition Tasks
- Title(参考訳): aat:様々な音響認識タスクにオーディオトランスフォーマーを適用する
- Authors: Yun Liang, Hai Lin, Shaojian Qiu, Yihang Zhang
- Abstract要約: 本稿では,アダプタチューニングに基づく効率的な微調整手法,すなわちAATを提案する。
本手法は,パラメータの7.118%を最適化しながら,フル微調整に匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 4.789838330230841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Transformers have been introduced into the field of acoustics
recognition. They are pre-trained on large-scale datasets using methods such as
supervised learning and semi-supervised learning, demonstrating robust
generality--It fine-tunes easily to downstream tasks and shows more robust
performance. However, the predominant fine-tuning method currently used is
still full fine-tuning, which involves updating all parameters during training.
This not only incurs significant memory usage and time costs but also
compromises the model's generality. Other fine-tuning methods either struggle
to address this issue or fail to achieve matching performance. Therefore, we
conducted a comprehensive analysis of existing fine-tuning methods and proposed
an efficient fine-tuning approach based on Adapter tuning, namely AAT. The core
idea is to freeze the audio Transformer model and insert extra learnable
Adapters, efficiently acquiring downstream task knowledge without compromising
the model's original generality. Extensive experiments have shown that our
method achieves performance comparable to or even superior to full fine-tuning
while optimizing only 7.118% of the parameters. It also demonstrates
superiority over other fine-tuning methods.
- Abstract(参考訳): 近年,音響認識の分野でトランスフォーマが導入されている。
それらは、教師付き学習や半教師付き学習などの手法を使用して、大規模なデータセット上で事前トレーニングされ、堅牢な汎用性を示す。
しかし、現在使われている主な微調整方法は、トレーニング中にすべてのパラメータを更新する完全な微調整である。
これはメモリ使用量と時間コストを増大させるだけでなく、モデルの一般性を損なう。
他の微調整方法は、この問題に対処するのに苦労するか、あるいは一致したパフォーマンスを達成するのに失敗する。
そこで我々は,既存のファインチューニング手法を包括的に分析し,アダプタチューニングに基づく効率的なファインチューニング手法,すなわちAATを提案する。
コアとなるアイデアは、オーディオトランスフォーマーモデルを凍結し、学習可能な余分なアダプタを挿入し、モデルの本来の汎用性を損なうことなく、下流のタスク知識を効率的に取得することだ。
実験の結果,パラメータの7.118%しか最適化せず,完全微調整に匹敵する性能を示した。
他の微調整法よりも優れていることも示している。
関連論文リスト
- Densely Connected Parameter-Efficient Tuning for Referring Image Segmentation [30.912818564963512]
DETRISは、低ランクな視覚的特徴伝達を強化するために設計されたパラメータ効率のチューニングフレームワークである。
我々の単純で効率的なアプローチは、最先端のメソッドを大きく上回り、0.9%から1.8%のバックボーンパラメーターが更新される。
論文 参考訳(メタデータ) (2025-01-15T05:00:03Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Efficient Adapter Tuning of Pre-trained Speech Models for Automatic
Speaker Verification [38.20393847192532]
自己教師型音声モデルは、下流の様々な音声タスクにおいて印象的な性能を示した。
大量の計算とストレージオーバーヘッドのため、微調整は事実上不可能になる。
話者検証タスクに自己教師付き音声モデルを適用するための効果的なアダプタフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-01T05:32:14Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - Evaluating Parameter-Efficient Transfer Learning Approaches on SURE
Benchmark for Speech Understanding [40.27182770995891]
ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。
本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:57:33Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z) - On the Effectiveness of Adapter-based Tuning for Pretrained Language
Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する
新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。
アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文 参考訳(メタデータ) (2021-06-06T16:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。