論文の概要: Prompting and Adapter Tuning for Self-supervised Encoder-Decoder Speech
Model
- arxiv url: http://arxiv.org/abs/2310.02971v3
- Date: Tue, 14 Nov 2023 21:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 19:33:58.023934
- Title: Prompting and Adapter Tuning for Self-supervised Encoder-Decoder Speech
Model
- Title(参考訳): 自己教師型エンコーダ・デコーダ音声モデルのプロンプティングと適応調整
- Authors: Kai-Wei Chang, Ming-Hsin Chen, Yun-Ping Lin, Jing Neng Hsu, Paul
Kuo-Ming Huang, Chien-yu Huang, Shang-Wen Li, Hung-yi Lee
- Abstract要約: 本稿では,自己教師付きエンコーダデコーダモデルであるWav2Seqのプロンプトが,従来のシーケンス生成タスクよりも優れていることを示す。
ASRでは単語誤り率が53%向上し,スロットフィリングではF1スコアが27%向上した。
また、言語間ASRにおけるWav2Seq上でのプロンプトとアダプタチューニングの転送可能性を示す。
- 参考スコア(独自算出の注目度): 84.12646619522774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompting and adapter tuning have emerged as efficient alternatives to
fine-tuning (FT) methods. However, existing studies on speech prompting focused
on classification tasks and failed on more complex sequence generation tasks.
Besides, adapter tuning is primarily applied with a focus on encoder-only
self-supervised models. Our experiments show that prompting on Wav2Seq, a
self-supervised encoder-decoder model, surpasses previous works in sequence
generation tasks. It achieves a remarkable 53% relative improvement in word
error rate for ASR and a 27% in F1 score for slot filling. Additionally,
prompting competes with the FT method in the low-resource scenario. Moreover,
we show the transferability of prompting and adapter tuning on Wav2Seq in
cross-lingual ASR. When limited trainable parameters are involved, prompting
and adapter tuning consistently outperform conventional FT across 7 languages.
Notably, in the low-resource scenario, prompting consistently outperforms
adapter tuning.
- Abstract(参考訳): プロンプティングとアダプタチューニングがファインチューニング(FT)手法の効率的な代替手段として登場した。
しかし、既存の音声プロンプトの研究は分類タスクに焦点が当てられ、より複雑なシーケンス生成タスクに失敗した。
加えて、アダプタチューニングは主にエンコーダのみの自己教師型モデルに焦点をあてて適用される。
実験の結果,自己教師付きエンコーダデコーダモデルwav2seqは,シーケンス生成タスクにおける従来の作業を上回ることがわかった。
ASRでは単語誤り率が53%向上し,スロットフィリングではF1スコアが27%向上した。
さらに、プロンプトは低リソースシナリオにおいてFT法と競合する。
さらに,言語間asrにおけるwav2seqのプロンプトとアダプタチューニングの伝達可能性を示す。
訓練可能なパラメータが限られている場合、プロンプトとアダプタのチューニングは7つの言語で従来のFTより一貫して優れている。
特に低リソースのシナリオでは、アダプタチューニングが一貫して向上する。
関連論文リスト
- iConFormer: Dynamic Parameter-Efficient Tuning with Input-Conditioned Adaptation [15.97351561456467]
本稿では,iConFormerと呼ばれる新しいPEFT手法,入出力トランスフォーマーを提案する。
インスタンスレベルの特徴変換を可能にする動的アダプタに,入出力ネットワーク(iCoN)を導入する。
具体的に言うと、iCoNは各機能に対してチャネルワイドな畳み込みカーネルを生成し、それを適応畳み込みプロセスを使って変換し、下流タスクに適したタスク固有できめ細かな詳細を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-09-04T16:06:23Z) - ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks [10.852047082856487]
3種類のアダプタを用いたパラメータ効率の高いファインチューニング手法であるELP-adapter tuningを導入する。
E-Adapterはトランスフォーマーベースのエンコーダ層に統合され、音声認識に有効な微細な音声表現の学習を支援する。
L-アダプタは、各エンコーダ層から下流ヘッドへのパスを生成し、下位エンコーダ層から非言語的特徴を抽出するのに役立つ。
P-adapterは、CNNの機能に擬似機能を付加し、効率と効率をさらに向上させる。
論文 参考訳(メタデータ) (2024-07-28T05:26:03Z) - Hierarchical Recurrent Adapters for Efficient Multi-Task Adaptation of Large Speech Models [12.230087530720652]
本稿では,大規模マルチタスク適応シナリオにおいて,より効率的なアダプタモジュールを提案する。
アダプタは単一の共有コントローラネットワークと複数のタスクレベルのアダプタヘッドで構成されている。
論文 参考訳(メタデータ) (2024-03-25T17:21:56Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - SparseAdapter: An Easy Approach for Improving the Parameter-Efficiency
of Adapters [96.52807311742198]
我々は、ネットワークプルーニングのレンズを通して、アダプタのパラメータ効率を再検討する。
スパース比が最大80%に達すると、SparseAdapterは標準のAdapterよりも同等あるいは優れたパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-09T15:28:48Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - Efficient Adapter Transfer of Self-Supervised Speech Models for
Automatic Speech Recognition [0.1909808926064466]
wav2vec 2.0やHuBERTといったトランスフォーマーベースのモデルが、音声領域の分野をリードしている。
本稿では,wav2vec 2.0 へのアダプタの適用により,下流 ASR タスクに必要なパラメータ数を削減することを提案する。
論文 参考訳(メタデータ) (2022-02-07T14:20:54Z) - On the Effectiveness of Adapter-based Tuning for Pretrained Language
Model Adaptation [36.37565646597464]
プリトレーニング言語モデル(PrLM)に軽量アダプタモジュールを追加することで、アダプタベースのチューニングが機能する
新しいタスクごとにいくつかのトレーニング可能なパラメータを追加するだけで、高いパラメータ共有が可能になる。
アダプタベースのチューニングは,低リソースタスクと多言語タスクの微調整に優れることを示す。
論文 参考訳(メタデータ) (2021-06-06T16:10:12Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。