論文の概要: UniPET-SPK: A Unified Framework for Parameter-Efficient Tuning of Pre-trained Speech Models for Robust Speaker Verification
- arxiv url: http://arxiv.org/abs/2501.16542v1
- Date: Mon, 27 Jan 2025 22:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:40:05.770741
- Title: UniPET-SPK: A Unified Framework for Parameter-Efficient Tuning of Pre-trained Speech Models for Robust Speaker Verification
- Title(参考訳): UniPET-SPK:ロバスト話者検証のための事前学習音声モデルのパラメータ効率向上のための統一フレームワーク
- Authors: Mufan Sang, John H. L. Hansen,
- Abstract要約: 本研究では,大規模事前学習型SSL音声モデルの話者検証課題に対するパラメータ効率調整法について検討した。
i)アダプタチューニング法,(ii)プロンプトチューニング法,および(iii)動的に学習可能なゲーティング機構でアダプタチューニングとプロンプトチューニングを効果的に組み込んだ統合フレームワークの3つのPET手法を提案する。
提案したUniPET-SPKは、異なるデータセットとシナリオにマッチするPETメソッドの最適な混合を見つけることを学ぶ。
- 参考スコア(独自算出の注目度): 32.3387409534726
- License:
- Abstract: With excellent generalization ability, SSL speech models have shown impressive performance on various downstream tasks in the pre-training and fine-tuning paradigm. However, as the size of pre-trained models grows, fine-tuning becomes practically unfeasible due to expanding computation and storage requirements and the risk of overfitting. This study explores parameter-efficient tuning (PET) methods for adapting large-scale pre-trained SSL speech models to speaker verification task. Correspondingly, we propose three PET methods: (i)an adapter-tuning method, (ii)a prompt-tuning method, and (iii)a unified framework that effectively incorporates adapter-tuning and prompt-tuning with a dynamically learnable gating mechanism. First, we propose the Inner+Inter Adapter framework, which inserts two types of adapters into pre-trained models, allowing for adaptation of latent features within the intermediate Transformer layers and output embeddings from all Transformer layers, through a parallel adapter design. Second, we propose the Deep Speaker Prompting method that concatenates trainable prompt tokens into the input space of pre-trained models to guide adaptation. Lastly, we propose the UniPET-SPK, a unified framework that effectively incorporates these two alternate PET methods into a single framework with a dynamic trainable gating mechanism. The proposed UniPET-SPK learns to find the optimal mixture of PET methods to match different datasets and scenarios. We conduct a comprehensive set of experiments on several datasets to validate the effectiveness of the proposed PET methods. Experimental results on VoxCeleb, CN-Celeb, and 1st 48-UTD forensic datasets demonstrate that the proposed UniPET-SPK consistently outperforms the two PET methods, fine-tuning, and other parameter-efficient tuning methods, achieving superior performance while updating only 5.4% of the parameters.
- Abstract(参考訳): SSL音声モデルは、優れた一般化能力により、事前学習および微調整のパラダイムにおいて、様々な下流タスクにおいて印象的な性能を示した。
しかし、事前訓練されたモデルのサイズが大きくなるにつれて、計算とストレージの要求が拡大し、過度に適合するリスクがあるため、微調整は事実上不可能になる。
本研究では,大規模な事前学習型SSL音声モデルを話者検証タスクに適用するためのパラメータ効率調整法について検討した。
それに対応して,PET法を3つ提案する。
(i)アダプタチューニング方法
(ii)プロンプトチューニング方法、及び
三 アダプタチューニングとプロンプトチューニングを動的に学習可能なゲーティング機構に効果的に組み込む統合フレームワーク。
まず,2種類のアダプタを事前学習したモデルに挿入し,中間トランスフォーマー層内に潜伏する特徴を適応させ,並列アダプタ設計によりすべてのトランスフォーマー層からの埋め込みを出力するインナー+Inter Adapterフレームワークを提案する。
次に、トレーニング可能なプロンプトトークンを事前学習モデルの入力空間に結合して適応を誘導するDeep Speaker Prompting法を提案する。
最後に、この2つの代替PETメソッドを動的に学習可能なゲーティング機構を備えた単一のフレームワークに効果的に組み込む統合フレームワークであるUniPET-SPKを提案する。
提案したUniPET-SPKは、異なるデータセットとシナリオにマッチするPETメソッドの最適な混合を見つけることを学ぶ。
提案手法の有効性を検証するため,複数のデータセットを対象とした総合的な実験を行った。
VoxCeleb, CN-Celeb, 1st 48-UTD の法医学的データセットによる実験結果から,提案した UniPET-SPK は2つのPET法, 微調整法, その他のパラメータ効率の調整法を一貫して上回り, パラメータの5.4%を更新した。
関連論文リスト
- Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - Efficient Adapter Tuning of Pre-trained Speech Models for Automatic
Speaker Verification [38.20393847192532]
自己教師型音声モデルは、下流の様々な音声タスクにおいて印象的な性能を示した。
大量の計算とストレージオーバーヘッドのため、微調整は事実上不可能になる。
話者検証タスクに自己教師付き音声モデルを適用するための効果的なアダプタフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-01T05:32:14Z) - ConPET: Continual Parameter-Efficient Tuning for Large Language Models [65.48107393731861]
継続的な学習には、新しいタスクへのモデルの継続的な適応が必要である。
継続性を提案する。
効率的なチューニング(ConPET) - 一般化可能なパラダイム。
大規模言語モデルの連続的なタスク適応。
論文 参考訳(メタデータ) (2023-09-26T08:52:04Z) - Exploring the Impact of Model Scaling on Parameter-Efficient Tuning [100.61202305296275]
大規模事前学習言語モデル(PLM)を効果的に駆動できるスケーリング効率チューニング(PET)法
小型PLMでは、PET法には通常顕著な性能差がある。
本稿では,Arbitrary PET (APET) 法という,より柔軟なPET法を提案する。
論文 参考訳(メタデータ) (2023-06-04T10:10:54Z) - Neural Architecture Search for Parameter-Efficient Fine-tuning of Large
Pre-trained Language Models [25.33932250843436]
本研究では,構造的および非構造的プルーニングによるPETアーキテクチャの学習に有効なNAS手法を提案する。
本稿では,本アルゴリズムの有効性を実証するGLUE実験を行い,PET設計選択が実際の性能に与える影響について考察する。
論文 参考訳(メタデータ) (2023-05-26T03:01:07Z) - A Unified Continual Learning Framework with General Parameter-Efficient
Tuning [56.250772378174446]
「事前学習$rightarrow$ダウンストリーム適応」は、継続学習の新しい機会と課題を提示する。
我々は,PETの1つのインスタンス化としてプロンプトを位置づけ,ラーニング・アキュミュレーション・アンサンブル(LAE)と呼ばれる統一的なCLフレームワークを提案する。
PET(Adapter、LoRA、Prefixなど)は、トレーニング済みのモデルをより少ないパラメータとリソースで下流のタスクに適応させることができる。
論文 参考訳(メタデータ) (2023-03-17T15:52:45Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Sparse Structure Search for Parameter-Efficient Tuning [85.49094523664428]
S$3$PETは、トレーニング可能なパラメータの少ない手動およびランダムな構造を超えることを示す。
探索された構造は、0.01%のトレーニング可能なパラメータで99%以上の微調整性能を維持している。
論文 参考訳(メタデータ) (2022-06-15T08:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。