論文の概要: ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks
- arxiv url: http://arxiv.org/abs/2407.21066v1
- Date: Sun, 28 Jul 2024 05:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:45:44.174636
- Title: ELP-Adapters: Parameter Efficient Adapter Tuning for Various Speech Processing Tasks
- Title(参考訳): ELP-Adapters:各種音声処理タスクのためのパラメータ効率の良い適応器チューニング
- Authors: Nakamasa Inoue, Shinta Otake, Takumi Hirose, Masanari Ohi, Rei Kawakami,
- Abstract要約: 3種類のアダプタを用いたパラメータ効率の高いファインチューニング手法であるELP-adapter tuningを導入する。
E-Adapterはトランスフォーマーベースのエンコーダ層に統合され、音声認識に有効な微細な音声表現の学習を支援する。
L-アダプタは、各エンコーダ層から下流ヘッドへのパスを生成し、下位エンコーダ層から非言語的特徴を抽出するのに役立つ。
P-adapterは、CNNの機能に擬似機能を付加し、効率と効率をさらに向上させる。
- 参考スコア(独自算出の注目度): 10.852047082856487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning has emerged as a key approach for learning generic representations from speech data. Despite promising results in downstream tasks such as speech recognition, speaker verification, and emotion recognition, a significant number of parameters is required, which makes fine-tuning for each task memory-inefficient. To address this limitation, we introduce ELP-adapter tuning, a novel method for parameter-efficient fine-tuning using three types of adapter, namely encoder adapters (E-adapters), layer adapters (L-adapters), and a prompt adapter (P-adapter). The E-adapters are integrated into transformer-based encoder layers and help to learn fine-grained speech representations that are effective for speech recognition. The L-adapters create paths from each encoder layer to the downstream head and help to extract non-linguistic features from lower encoder layers that are effective for speaker verification and emotion recognition. The P-adapter appends pseudo features to CNN features to further improve effectiveness and efficiency. With these adapters, models can be quickly adapted to various speech processing tasks. Our evaluation across four downstream tasks using five backbone models demonstrated the effectiveness of the proposed method. With the WavLM backbone, its performance was comparable to or better than that of full fine-tuning on all tasks while requiring 90% fewer learnable parameters.
- Abstract(参考訳): 音声データからジェネリック表現を学習するための重要なアプローチとして,自己教師付き学習が登場した。
音声認識、話者検証、感情認識などの下流タスクにおいて有望な結果が得られたにもかかわらず、かなりの数のパラメータが必要であり、各タスクのメモリ非効率を微調整する。
この制限に対処するため、ELPアダプタチューニング、エンコーダアダプタ(Eアダプタ)、層アダプタ(Lアダプタ)、プロンプトアダプタ(Pアダプタ)の3種類のアダプタを用いたパラメータ効率の高い微調整手法を導入する。
E-adaptersはトランスフォーマーベースのエンコーダ層に統合され、音声認識に有効な微細な音声表現の学習を支援する。
L適応者は、各エンコーダ層から下流頭部への経路を作成し、話者検証と感情認識に有効な下位エンコーダ層から非言語的特徴を抽出する。
P-adapterは、CNNの機能に擬似機能を付加し、効率と効率をさらに向上させる。
これらのアダプタを使えば、モデルは様々な音声処理タスクに迅速に適応できる。
5つのバックボーンモデルを用いて,提案手法の有効性を実証した。
WavLMのバックボーンでは、その性能はすべてのタスクの完全な微調整と同等かそれ以上であり、学習可能なパラメータは90%削減された。
関連論文リスト
- iConFormer: Dynamic Parameter-Efficient Tuning with Input-Conditioned Adaptation [15.97351561456467]
本稿では,iConFormerと呼ばれる新しいPEFT手法,入出力トランスフォーマーを提案する。
インスタンスレベルの特徴変換を可能にする動的アダプタに,入出力ネットワーク(iCoN)を導入する。
具体的に言うと、iCoNは各機能に対してチャネルワイドな畳み込みカーネルを生成し、それを適応畳み込みプロセスを使って変換し、下流タスクに適したタスク固有できめ細かな詳細を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-09-04T16:06:23Z) - Hierarchical Recurrent Adapters for Efficient Multi-Task Adaptation of Large Speech Models [12.230087530720652]
本稿では,大規模マルチタスク適応シナリオにおいて,より効率的なアダプタモジュールを提案する。
アダプタは単一の共有コントローラネットワークと複数のタスクレベルのアダプタヘッドで構成されている。
論文 参考訳(メタデータ) (2024-03-25T17:21:56Z) - Exploration of Adapter for Noise Robust Automatic Speech Recognition [25.997785562014883]
音声認識システム(ASR)を未確認ノイズ環境に適用することは重要である。
ニューラルネットワークへのアダプタの統合は、トランスファーラーニングの強力なテクニックとして現れている。
本研究は, 雑音環境下でのアダプタに基づくASR適応について, 徹底的に検討する。
論文 参考訳(メタデータ) (2024-02-28T12:06:08Z) - Evaluating Parameter-Efficient Transfer Learning Approaches on SURE
Benchmark for Speech Understanding [40.27182770995891]
ファインチューニングは、事前訓練されたモデルからのトランスファー学習のデフォルトアルゴリズムとして広く使われている。
本稿では,様々な音声処理タスクに対するパラメータ効率学習のための音声不確定評価(SURE)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:57:33Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
論文 参考訳(メタデータ) (2022-10-10T11:08:12Z) - Adaptable Adapters [74.65986170056945]
最先端のNLPモデルには1億から1兆のパラメータが含まれる。
適応アダプタは異なる層と異なる入力データに対して異なるアクティベーション関数を含む。
適応型アダプタは,標準アダプタアーキテクチャを用いてオンパー性能を実現する。
論文 参考訳(メタデータ) (2022-05-03T14:59:27Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - VL-Adapter: Parameter-Efficient Transfer Learning for
Vision-and-Language Tasks [71.40656211497162]
近年、大規模なテキストコーパスで事前訓練された微調整言語モデルにより、視覚と言語(V&L)タスクが大幅に改善されている。
本稿では,VL-BARTやVL-T5などのV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。
提案手法は, モデル全体の微調整性能に適合することを示した。
論文 参考訳(メタデータ) (2021-12-13T17:35:26Z) - Exploiting Adapters for Cross-lingual Low-resource Speech Recognition [52.40623653290499]
言語間の言語適応は、複数のリッチリソース言語を活用して低リソースターゲット言語のためのモデルを構築するという問題を解決することを目的としている。
パラメータ効率のよい言語間音声適応のための複数のアダプタの性能を調べるためのアダプタを提案する。
論文 参考訳(メタデータ) (2021-05-18T08:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。