論文の概要: CA-SSLR: Condition-Aware Self-Supervised Learning Representation for Generalized Speech Processing
- arxiv url: http://arxiv.org/abs/2412.04425v1
- Date: Thu, 05 Dec 2024 18:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:50.682009
- Title: CA-SSLR: Condition-Aware Self-Supervised Learning Representation for Generalized Speech Processing
- Title(参考訳): CA-SSLR:一般音声処理のための条件対応自己教師付き学習表現
- Authors: Yen-Ju Lu, Jing Liu, Thomas Thebaud, Laureano Moro-Velazquez, Ariya Rastrow, Najim Dehak, Jesus Villalba,
- Abstract要約: 条件対応自己監視型学習表現(CA-SSLR)を導入する。
CA-S SLRはモデルの能力を向上し、目に見えないタスクに対する一般性を示す。
実験により、CA-S SLRはトレーニング可能なパラメータの数を減らし、過度な適合を緩和し、リソース不足や見当たらないタスクで優れることが示された。
- 参考スコア(独自算出の注目度): 27.828675312638296
- License:
- Abstract: We introduce Condition-Aware Self-Supervised Learning Representation (CA-SSLR), a generalist conditioning model broadly applicable to various speech-processing tasks. Compared to standard fine-tuning methods that optimize for downstream models, CA-SSLR integrates language and speaker embeddings from earlier layers, making the SSL model aware of the current language and speaker context. This approach reduces the reliance on input audio features while preserving the integrity of the base SSLR. CA-SSLR improves the model's capabilities and demonstrates its generality on unseen tasks with minimal task-specific tuning. Our method employs linear modulation to dynamically adjust internal representations, enabling fine-grained adaptability without significantly altering the original model behavior. Experiments show that CA-SSLR reduces the number of trainable parameters, mitigates overfitting, and excels in under-resourced and unseen tasks. Specifically, CA-SSLR achieves a 10% relative reduction in LID errors, a 37% improvement in ASR CER on the ML-SUPERB benchmark, and a 27% decrease in SV EER on VoxCeleb-1, demonstrating its effectiveness.
- Abstract(参考訳): 本研究では,様々な音声処理タスクに適用可能な一般条件付きモデルCA-SSLRを提案する。
ダウンストリームモデルを最適化する標準的な微調整方法と比較して、CA-SSLRは以前のレイヤからの言語と話者の埋め込みを統合しており、SSLモデルは現在の言語と話者コンテキストを認識している。
このアプローチは、ベースSSLRの整合性を保ちながら、入力オーディオ機能への依存を減らす。
CA-SSLRはモデルの能力を改善し、タスク固有の最小限のチューニングで見えないタスクの汎用性を示す。
本手法では線形変調を用いて内部表現を動的に調整し,元のモデル動作を著しく変化させることなく細粒度適応性を実現する。
実験によると、CA-SSLRはトレーニング可能なパラメータの数を減らし、過度な適合を緩和し、リソース不足や見当たらないタスクに優れる。
具体的には、CA-SSLRは、LIDエラーの10%の相対的な削減、ML-SUPERBベンチマークでのASR CERの37%の改善、VoxCeleb-1でのSV EERの27%の削減を実現し、その有効性を示している。
関連論文リスト
- Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models [19.752712857873043]
本稿では,SSR(Selective Self-Rehearsal)を導入し,SFT(Selective Self-Rehearsal)に匹敵する性能を実現する。
モデルの正しい応答を利用することで、SSRは微調整段階におけるモデルの特殊化を減らす。
SSRの有効性は、様々なデータセットにまたがる解決不可能なクエリを識別するタスクに関する実験を通じて実証される。
論文 参考訳(メタデータ) (2024-09-07T10:21:03Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models [0.0]
大規模ASRモデルからの音声表現には、貴重な話者情報が含まれる。
本稿では,事前学習したWavLMを教師付き損失で微調整することにより,SSLコンテキストで話者表現を学習するフレームワークを提案する。
提案手法はVoxCeleb1-O上で0.99%のEERを達成し,自己教師型SVにおける新たな最先端技術を確立する。
論文 参考訳(メタデータ) (2024-06-04T12:58:19Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Master-ASR: Achieving Multilingual Scalability and Low-Resource
Adaptation in ASR with Modular Learning [28.592569051244375]
METHODNSは、強力な多言語スケーラビリティと低リソース適応性を同時に実現している。
我々のフレームワークは、最先端(SOTA)メソッドよりも30%少ない推論オーバーヘッドで、0.13$sim$2.41低い文字誤り率(CER)を達成する。
論文 参考訳(メタデータ) (2023-06-23T16:23:00Z) - Attribute-Modulated Generative Meta Learning for Zero-Shot
Classification [52.64680991682722]
ゼロショット学習のためのAttribute-Modulated GenerAtive Meta-modelを提案する。
本モデルは属性対応変調ネットワークと属性対応生成ネットワークから構成される。
実験により,AMAZはZSLで3.8%,ZSLで5.1%改善し,ZSL設定を一般化した。
論文 参考訳(メタデータ) (2021-04-22T04:16:43Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。