論文の概要: Efficient Speech Translation with Pre-trained Models
- arxiv url: http://arxiv.org/abs/2211.04939v1
- Date: Wed, 9 Nov 2022 15:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:32:36.014185
- Title: Efficient Speech Translation with Pre-trained Models
- Title(参考訳): 事前学習モデルを用いた効率的な音声翻訳
- Authors: Zhaolin Li, Jan Niehues
- Abstract要約: 本研究では,事前学習モデルに基づいて,ケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。
エンド・ツー・エンドのモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用はエンド・ツー・エンドのトレーニングデータの追加の必要性に制限がある。
- 参考スコア(独自算出の注目度): 13.107314023500349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When building state-of-the-art speech translation models, the need for large
computational resources is a significant obstacle due to the large training
data size and complex models. The availability of pre-trained models is a
promising opportunity to build strong speech translation systems efficiently.
In a first step, we investigate efficient strategies to build cascaded and
end-to-end speech translation systems based on pre-trained models. Using this
strategy, we can train and apply the models on a single GPU. While the
end-to-end models show superior translation performance to cascaded ones, the
application of this technology has a limitation on the need for additional
end-to-end training data. In a second step, we proposed an additional
similarity loss to encourage the model to generate similar hidden
representations for speech and transcript. Using this technique, we can
increase the data efficiency and improve the translation quality by 6 BLEU
points in scenarios with limited end-to-end training data.
- Abstract(参考訳): 最先端の音声翻訳モデルを構築する場合、大規模なトレーニングデータサイズと複雑なモデルのため、大規模な計算リソースの必要性は大きな障害となる。
事前学習されたモデルの可用性は、強力な音声翻訳システムを効率的に構築する有望な機会である。
まず,事前学習モデルに基づくケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。
この戦略を使うことで、1つのGPUでモデルをトレーニングし、適用することができます。
エンドツーエンドモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用は、追加のエンドツーエンドトレーニングデータの必要性に制限がある。
第2のステップでは、モデルに類似した音声や文字起こしの隠蔽表現を生成するよう促すために、追加の類似性損失を提案する。
この手法を用いることで、エンドツーエンドのトレーニングデータに制限のあるシナリオにおいて、データ効率を向上し、翻訳品質を6点向上することができる。
関連論文リスト
- Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin [3.2039731457723604]
ナイジェリアのピジン (Naija) のテキスト分類と翻訳を, 大規模に並列した英語-ピジンコーパスを収集することによって改善することを目的としている。
本研究は,英語の事前学習型言語モデルが,最大2.38BLEUの改善を伴い,多言語言語モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-01T16:47:36Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - Unsupervised Pre-Training For Data-Efficient Text-to-Speech On Low
Resource Languages [15.32264927462068]
そこで本研究では,大容量の非転写音声データを利用したシーケンス・ツー・シーケンスTSモデルの教師なし事前学習手法を提案する。
主なアイデアは、歪んだものから切り離されたメル・スペクトログラムを再構築するモデルを事前訓練することである。
低リソース言語シナリオにおける提案手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-03-28T01:26:00Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。