論文の概要: CA-SSLR: Condition-Aware Self-Supervised Learning Representation for Generalized Speech Processing
- arxiv url: http://arxiv.org/abs/2412.04425v1
- Date: Thu, 05 Dec 2024 18:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:50.682009
- Title: CA-SSLR: Condition-Aware Self-Supervised Learning Representation for Generalized Speech Processing
- Title(参考訳): CA-SSLR:一般音声処理のための条件対応自己教師付き学習表現
- Authors: Yen-Ju Lu, Jing Liu, Thomas Thebaud, Laureano Moro-Velazquez, Ariya Rastrow, Najim Dehak, Jesus Villalba,
- Abstract要約: 条件対応自己監視型学習表現(CA-SSLR)を導入する。
CA-S SLRはモデルの能力を向上し、目に見えないタスクに対する一般性を示す。
実験により、CA-S SLRはトレーニング可能なパラメータの数を減らし、過度な適合を緩和し、リソース不足や見当たらないタスクで優れることが示された。
- 参考スコア(独自算出の注目度): 27.828675312638296
- License:
- Abstract: We introduce Condition-Aware Self-Supervised Learning Representation (CA-SSLR), a generalist conditioning model broadly applicable to various speech-processing tasks. Compared to standard fine-tuning methods that optimize for downstream models, CA-SSLR integrates language and speaker embeddings from earlier layers, making the SSL model aware of the current language and speaker context. This approach reduces the reliance on input audio features while preserving the integrity of the base SSLR. CA-SSLR improves the model's capabilities and demonstrates its generality on unseen tasks with minimal task-specific tuning. Our method employs linear modulation to dynamically adjust internal representations, enabling fine-grained adaptability without significantly altering the original model behavior. Experiments show that CA-SSLR reduces the number of trainable parameters, mitigates overfitting, and excels in under-resourced and unseen tasks. Specifically, CA-SSLR achieves a 10% relative reduction in LID errors, a 37% improvement in ASR CER on the ML-SUPERB benchmark, and a 27% decrease in SV EER on VoxCeleb-1, demonstrating its effectiveness.
- Abstract(参考訳): 本研究では,様々な音声処理タスクに適用可能な一般条件付きモデルCA-SSLRを提案する。
ダウンストリームモデルを最適化する標準的な微調整方法と比較して、CA-SSLRは以前のレイヤからの言語と話者の埋め込みを統合しており、SSLモデルは現在の言語と話者コンテキストを認識している。
このアプローチは、ベースSSLRの整合性を保ちながら、入力オーディオ機能への依存を減らす。
CA-SSLRはモデルの能力を改善し、タスク固有の最小限のチューニングで見えないタスクの汎用性を示す。
本手法では線形変調を用いて内部表現を動的に調整し,元のモデル動作を著しく変化させることなく細粒度適応性を実現する。
実験によると、CA-SSLRはトレーニング可能なパラメータの数を減らし、過度な適合を緩和し、リソース不足や見当たらないタスクに優れる。
具体的には、CA-SSLRは、LIDエラーの10%の相対的な削減、ML-SUPERBベンチマークでのASR CERの37%の改善、VoxCeleb-1でのSV EERの27%の削減を実現し、その有効性を示している。
関連論文リスト
- Improving Transducer-Based Spoken Language Understanding with Self-Conditioned CTC and Knowledge Transfer [11.362681035467121]
我々は、RNNトランスデューサモデル(RNN-T)において、エンドツーエンド(E2E)音声言語理解(SLU)を改善することを提案する。
提案モデルは,ASRおよびSLUを逐次実行するE2E微分可能なカスケードモデルに類似する。
論文 参考訳(メタデータ) (2025-01-03T18:19:12Z) - Training Strategies for Isolated Sign Language Recognition [72.27323884094953]
本稿では,孤立手話認識のための包括的モデル学習パイプラインを提案する。
構築されたパイプラインには、慎重に選択された画像とビデオの拡張が含まれており、低いデータ品質とさまざまなサインスピードの課題に対処している。
WLASLとSlovoのベンチマークでは、以前のベストソリューションと比較して1.63%と14.12%の改善が得られた。
論文 参考訳(メタデータ) (2024-12-16T08:37:58Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models [19.752712857873043]
本稿では,SSR(Selective Self-Rehearsal)を導入し,SFT(Selective Self-Rehearsal)に匹敵する性能を実現する。
モデルの正しい応答を利用することで、SSRは微調整段階におけるモデルの特殊化を減らす。
SSRの有効性は、様々なデータセットにまたがる解決不可能なクエリを識別するタスクに関する実験を通じて実証される。
論文 参考訳(メタデータ) (2024-09-07T10:21:03Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models [0.0]
大規模ASRモデルからの音声表現には、貴重な話者情報が含まれる。
本稿では,事前学習したWavLMを教師付き損失で微調整することにより,SSLコンテキストで話者表現を学習するフレームワークを提案する。
提案手法はVoxCeleb1-O上で0.99%のEERを達成し,自己教師型SVにおける新たな最先端技術を確立する。
論文 参考訳(メタデータ) (2024-06-04T12:58:19Z) - Attribute-Modulated Generative Meta Learning for Zero-Shot
Classification [52.64680991682722]
ゼロショット学習のためのAttribute-Modulated GenerAtive Meta-modelを提案する。
本モデルは属性対応変調ネットワークと属性対応生成ネットワークから構成される。
実験により,AMAZはZSLで3.8%,ZSLで5.1%改善し,ZSL設定を一般化した。
論文 参考訳(メタデータ) (2021-04-22T04:16:43Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。