論文の概要: CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models
- arxiv url: http://arxiv.org/abs/2212.01282v1
- Date: Thu, 1 Dec 2022 08:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 16:12:21.907270
- Title: CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models
- Title(参考訳): CHAPTER:自己教師型音声モデルのための畳み込みニューラルネットワークアダプタの爆発
- Authors: Zih-Ching Chen, Yu-Shun Sung, Hung-yi Lee
- Abstract要約: 自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
- 参考スコア(独自算出の注目度): 62.60723685118747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) is a powerful technique for learning
representations from unlabeled data. Transformer based models such as HuBERT,
which consist a feature extractor and transformer layers, are leading the field
in the speech domain. SSL models are fine-tuned on a wide range of downstream
tasks, which involves re-training the majority of the model for each task.
Previous studies have introduced applying adapters, which are small lightweight
modules commonly used in Natural Language Processing (NLP) to adapt pre-trained
models to new tasks. However, such efficient tuning techniques only provide
adaptation at the transformer layer, but failed to perform adaptation at the
feature extractor. In this paper, we propose CHAPTER, an efficient tuning
method specifically designed for SSL speech model, by applying CNN adapters at
the feature extractor. Using this method, we can only fine-tune fewer than 5%
of parameters per task compared to fully fine-tuning and achieve better and
more stable performance. We empirically found that adding CNN adapters to the
feature extractor can help the adaptation on emotion and speaker tasks. For
instance, the accuracy of SID is improved from 87.71 to 91.56, and the accuracy
of ER is improved by 5%.
- Abstract(参考訳): 自己教師付き学習(ssl)はラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器と変換器層からなるHuBERTのようなトランスフォーマーモデルが、音声領域におけるフィールドをリードしている。
SSLモデルは、さまざまなダウンストリームタスクで微調整され、各タスクのモデルの大部分が再トレーニングされる。
これは自然言語処理(nlp)で一般的に使用される小さな軽量モジュールで、事前学習されたモデルを新しいタスクに適応させる。
しかし、このような効率的なチューニング技術はトランスフォーマー層でのみ適応するが、特徴抽出器では適応できない。
本稿では,特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法CHAPTERを提案する。
この方法を用いることで、タスク毎のパラメータの5%未満の微調整と、完全な微調整と、より良く、より安定したパフォーマンスを実現することができる。
特徴抽出器にCNNアダプタを追加することで、感情や話者のタスクに適応できることを実証的に見出した。
例えば、SIDの精度は87.71から91.56に改善され、ERの精度は5%向上する。
関連論文リスト
- ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks [10.852047082856487]
3種類のアダプタを用いたパラメータ効率の高いファインチューニング手法であるELP-adapter tuningを導入する。
E-Adapterはトランスフォーマーベースのエンコーダ層に統合され、音声認識に有効な微細な音声表現の学習を支援する。
L-アダプタは、各エンコーダ層から下流ヘッドへのパスを生成し、下位エンコーダ層から非言語的特徴を抽出するのに役立つ。
P-adapterは、CNNの機能に擬似機能を付加し、効率と効率をさらに向上させる。
論文 参考訳(メタデータ) (2024-07-28T05:26:03Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
論文 参考訳(メタデータ) (2022-10-10T11:08:12Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - Efficient Adapter Transfer of Self-Supervised Speech Models for
Automatic Speech Recognition [0.1909808926064466]
wav2vec 2.0やHuBERTといったトランスフォーマーベースのモデルが、音声領域の分野をリードしている。
本稿では,wav2vec 2.0 へのアダプタの適用により,下流 ASR タスクに必要なパラメータ数を削減することを提案する。
論文 参考訳(メタデータ) (2022-02-07T14:20:54Z) - Legal Transformer Models May Not Always Help [3.6061626009104057]
本研究では,法的NLPタスクにおけるドメイン適応型事前学習と言語アダプタの価値について検討する。
ドメイン適応型事前学習は低リソースダウンストリームタスクにのみ有効であることを示す。
さらなる結果として、法定コーパスで事前訓練されたRoBERTaモデルであるLegalRoBERTaをリリースする。
論文 参考訳(メタデータ) (2021-09-14T17:53:55Z) - On the Effectiveness of Adapter-based Tuning for Pretrained Language
Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する
新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。
アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文 参考訳(メタデータ) (2021-06-06T16:10:12Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。