論文の概要: Exploring Efficient-tuning Methods in Self-supervised Speech Models
- arxiv url: http://arxiv.org/abs/2210.06175v1
- Date: Mon, 10 Oct 2022 11:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 16:14:41.690500
- Title: Exploring Efficient-tuning Methods in Self-supervised Speech Models
- Title(参考訳): 自己教師型音声モデルにおける効率的なチューニング手法の探索
- Authors: Zih-Ching Chen, Chin-Lun Fu, Chih-Ying Liu, Shang-Wen Li, Hung-yi Lee
- Abstract要約: 自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
- 参考スコア(独自算出の注目度): 53.633222197712875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we aim to explore efficient tuning methods for speech
self-supervised learning. Recent studies show that self-supervised learning
(SSL) can learn powerful representations for different speech tasks. However,
fine-tuning pre-trained models for each downstream task is
parameter-inefficient since SSL models are notoriously large with millions of
parameters. Adapters are lightweight modules commonly used in NLP to solve this
problem. In downstream tasks, the parameters of SSL models are frozen, and only
the adapters are trained. Given the lack of studies generally exploring the
effectiveness of adapters for self-supervised speech tasks, we intend to fill
this gap by adding various adapter modules in pre-trained speech SSL models. We
show that the performance parity can be achieved with over 90% parameter
reduction, and discussed the pros and cons of efficient tuning techniques. This
is the first comprehensive investigation of various adapter types across speech
tasks.
- Abstract(参考訳): 本研究では,音声自己教師型学習のための効率的なチューニング手法を提案する。
近年の研究では、自己教師付き学習(SSL)が様々な音声タスクの強力な表現を学習できることが示されている。
しかし、SSLモデルは数百万のパラメータで悪名高いため、ダウンストリームタスク毎の微調整済みモデルはパラメータ非効率である。
アダプタは、この問題を解決するために一般的にNLPで使用される軽量モジュールである。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
自己教師型音声タスクにおけるアダプタの有効性を概ね検討する研究の欠如を考えると、事前訓練された音声SSLモデルに様々なアダプタモジュールを追加することで、このギャップを埋めるつもりだ。
90%以上のパラメータ削減で性能の同等性を達成できることを示し、効率的なチューニング手法の長所と短所について論じる。
これは、音声タスクにまたがる様々なアダプタタイプに関する最初の包括的な調査である。
関連論文リスト
- eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Evaluating Parameter-Efficient Transfer Learning Approaches on SURE
Benchmark for Speech Understanding [40.27182770995891]
ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。
本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:57:33Z) - Front-End Adapter: Adapting Front-End Input of Speech based
Self-Supervised Learning for Speech Recognition [6.238268985570237]
音声ベースのSSLモデルは、様々な音声関連タスクで有望なパフォーマンスを示す。
事前トレーニングと微調整の間、一貫したフロントエンド入力を使用することが不可欠である。
本稿では,このフロントエンドの相違に対処する,シンプルだが効果的なフロントエンドアダプタを提案する。
論文 参考訳(メタデータ) (2023-02-18T13:46:12Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Efficient Adapter Transfer of Self-Supervised Speech Models for
Automatic Speech Recognition [0.1909808926064466]
wav2vec 2.0やHuBERTといったトランスフォーマーベースのモデルが、音声領域の分野をリードしている。
本稿では,wav2vec 2.0 へのアダプタの適用により,下流 ASR タスクに必要なパラメータ数を削減することを提案する。
論文 参考訳(メタデータ) (2022-02-07T14:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。