論文の概要: Effects of Layer Freezing when Transferring DeepSpeech to New Languages
- arxiv url: http://arxiv.org/abs/2102.04097v1
- Date: Mon, 8 Feb 2021 10:05:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:45:33.958719
- Title: Effects of Layer Freezing when Transferring DeepSpeech to New Languages
- Title(参考訳): 新しい言語へのdeepspeech転送におけるレイヤフリーズの効果
- Authors: Onno Eberhard and Torsten Zesch
- Abstract要約: まず、両方の言語でモデルをスクラッチからトレーニングし、その後、英語で事前訓練されたDeepSpeechを使って結果を改善する。
1つの層だけを凍結しても、結果は劇的に改善する。
- 参考スコア(独自算出の注目度): 2.335152769484957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we train Mozilla's DeepSpeech architecture on German and Swiss
German speech datasets and compare the results of different training methods.
We first train the models from scratch on both languages and then improve upon
the results by using an English pretrained version of DeepSpeech for weight
initialization and experiment with the effects of freezing different layers
during training. We see that even freezing only one layer already improves the
results dramatically.
- Abstract(参考訳): 本稿では,ドイツとスイスの音声データセット上でmozillaのdeepspeechアーキテクチャをトレーニングし,異なるトレーニング方法の結果を比較する。
まず、両方の言語でモデルをスクラッチからトレーニングし、その後、英語で事前訓練されたDeepSpeechを使って重量初期化を行い、トレーニング中に異なるレイヤが凍結する影響を実験して結果を改善する。
1つの層だけを凍結しても、結果は劇的に改善する。
関連論文リスト
- MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。
そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T07:43:49Z) - Inter-connection: Effective Connection between Pre-trained Encoder and
Decoder for Speech Translation [10.103202030679844]
本稿では,音声事前学習モデルの各層から情報を集約する相互接続機構を提案する。
この機構は, 音声事前学習モデルが凍結した場合に, パラメータを2K増加させることで, en-de, en-ja, en-zhでBLEUを約2ポイント増加させた。
論文 参考訳(メタデータ) (2023-05-26T13:01:29Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Recovering Private Text in Federated Learning of Language Models [30.646865969760412]
フェデレーション学習により、分散ユーザは、各ユーザのデータをプライベートに保ちながら、協力的にモデルをトレーニングできる。
本稿では,言語モデルのフェデレーション学習のための新しい攻撃手法FILMを提案する。
最大128文のバッチサイズからテキストを復元できる可能性を示す。
論文 参考訳(メタデータ) (2022-05-17T17:38:37Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Efficient Weight factorization for Multilingual Speech Recognition [67.00151881207792]
エンドツーエンドの多言語音声認識は、多くの言語を含む合成音声コーパスで単一のモデルトレーニングを使用する。
トレーニングデータの各言語には異なる特徴があるため、共有ネットワークは、すべての言語を同時に最適化するのに苦労する可能性がある。
ニューラルネットワークのコア動作をターゲットとした新しい多言語アーキテクチャを提案する:線形変換関数。
論文 参考訳(メタデータ) (2021-05-07T00:12:02Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。