Fugu-MT 論文翻訳(概要): Effects of Layer Freezing when Transferring DeepSpeech to New Languages

論文の概要: Effects of Layer Freezing when Transferring DeepSpeech to New Languages

arxiv url: http://arxiv.org/abs/2102.04097v1
Date: Mon, 8 Feb 2021 10:05:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-09 15:45:33.958719
Title: Effects of Layer Freezing when Transferring DeepSpeech to New Languages
Title（参考訳）: 新しい言語へのdeepspeech転送におけるレイヤフリーズの効果
Authors: Onno Eberhard and Torsten Zesch
Abstract要約: まず、両方の言語でモデルをスクラッチからトレーニングし、その後、英語で事前訓練されたDeepSpeechを使って結果を改善する。 1つの層だけを凍結しても、結果は劇的に改善する。
参考スコア（独自算出の注目度）: 2.335152769484957
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we train Mozilla's DeepSpeech architecture on German and Swiss German speech datasets and compare the results of different training methods. We first train the models from scratch on both languages and then improve upon the results by using an English pretrained version of DeepSpeech for weight initialization and experiment with the effects of freezing different layers during training. We see that even freezing only one layer already improves the results dramatically.
Abstract（参考訳）: 本稿では,ドイツとスイスの音声データセット上でmozillaのdeepspeechアーキテクチャをトレーニングし,異なるトレーニング方法の結果を比較する。まず、両方の言語でモデルをスクラッチからトレーニングし、その後、英語で事前訓練されたDeepSpeechを使って重量初期化を行い、トレーニング中に異なるレイヤが凍結する影響を実験して結果を改善する。 1つの層だけを凍結しても、結果は劇的に改善する。

関連論文リスト

Efficient Speech Translation through Model Compression and Knowledge Distillation [0.0]
本稿では,音声翻訳のための大規模音声モデルの効率的な展開という課題に対処する。我々は,4ビット量子化(QLoRA)による低ランク適応,知識蒸留に基づく反復層プルーニングを用いる。筆者ら(学生)モデルは,モデルパラメータとストレージフットプリントの両方を最大50%削減すると同時に,ドメイン内(教師)モデルの翻訳品質の97-100%を維持できる。
論文参考訳（メタデータ） (2025-05-26T17:17:08Z)
MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文参考訳（メタデータ） (2024-08-21T07:43:49Z)
Inter-connection: Effective Connection between Pre-trained Encoder and Decoder for Speech Translation [10.103202030679844]
本稿では,音声事前学習モデルの各層から情報を集約する相互接続機構を提案する。この機構は, 音声事前学習モデルが凍結した場合に, パラメータを2K増加させることで, en-de, en-ja, en-zhでBLEUを約2ポイント増加させた。
論文参考訳（メタデータ） (2023-05-26T13:01:29Z)
Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文参考訳（メタデータ） (2023-05-22T13:12:16Z)
M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文参考訳（メタデータ） (2022-11-02T14:54:45Z)
Joint Pre-Training with Speech and Bilingual Text for Direct Speech to Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文参考訳（メタデータ） (2022-10-31T02:55:51Z)
Recovering Private Text in Federated Learning of Language Models [30.646865969760412]
フェデレーション学習により、分散ユーザは、各ユーザのデータをプライベートに保ちながら、協力的にモデルをトレーニングできる。本稿では,言語モデルのフェデレーション学習のための新しい攻撃手法FILMを提案する。最大128文のバッチサイズからテキストを復元できる可能性を示す。
論文参考訳（メタデータ） (2022-05-17T17:38:37Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)
Efficient Weight factorization for Multilingual Speech Recognition [67.00151881207792]
エンドツーエンドの多言語音声認識は、多くの言語を含む合成音声コーパスで単一のモデルトレーニングを使用する。トレーニングデータの各言語には異なる特徴があるため、共有ネットワークは、すべての言語を同時に最適化するのに苦労する可能性がある。ニューラルネットワークのコア動作をターゲットとした新しい多言語アーキテクチャを提案する:線形変換関数。
論文参考訳（メタデータ） (2021-05-07T00:12:02Z)
From Universal Language Model to Downstream Task: Improving RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文参考訳（メタデータ） (2021-02-24T09:30:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。