論文の概要: Unveiling the Role of Pretraining in Direct Speech Translation
- arxiv url: http://arxiv.org/abs/2409.18044v1
- Date: Thu, 26 Sep 2024 16:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 22:26:48.126797
- Title: Unveiling the Role of Pretraining in Direct Speech Translation
- Title(参考訳): 直接音声翻訳における事前学習の役割の解明
- Authors: Belen Alastruey, Gerard I. Gállego, Marta R. Costa-jussà,
- Abstract要約: 我々は,事前学習エンコーダを用いたシステムのトレーニング力学,従来のアプローチ,スクラッチからトレーニングしたシステムを比較した。
学習を通して、ランダムモデルがその予測のために音声入力からの情報を組み込むのに苦労していることを観察する。
本稿では,デコーダのクロスアテンションを微妙に変化させ,トレーニングの初期の段階からソース情報を統合することを提案する。
- 参考スコア(独自算出の注目度): 14.584351239812394
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Direct speech-to-text translation systems encounter an important drawback in data scarcity. A common solution consists on pretraining the encoder on automatic speech recognition, hence losing efficiency in the training process. In this study, we compare the training dynamics of a system using a pretrained encoder, the conventional approach, and one trained from scratch. We observe that, throughout the training, the randomly initialized model struggles to incorporate information from the speech inputs for its predictions. Hence, we hypothesize that this issue stems from the difficulty of effectively training an encoder for direct speech translation. While a model trained from scratch needs to learn acoustic and semantic modeling simultaneously, a pretrained one can just focus on the latter. Based on these findings, we propose a subtle change in the decoder cross-attention to integrate source information from earlier steps in training. We show that with this change, the model trained from scratch can achieve comparable performance to the pretrained one, while reducing the training time.
- Abstract(参考訳): 直接音声からテキストへの翻訳システムは、データ不足の重要な欠点に遭遇する。
一般的な解決策は、エンコーダを自動音声認識で事前訓練することで、トレーニングプロセスの効率を損なう。
本研究では,事前学習エンコーダを用いたシステムのトレーニング力学,従来の手法,スクラッチからトレーニングしたシステムを比較した。
学習を通して、ランダムに初期化されたモデルは、その予測のために音声入力からの情報を組み込むのに苦労していることを観察する。
したがって、この問題は、直接音声翻訳のためのエンコーダを効果的に訓練することの難しさに起因していると仮定する。
スクラッチからトレーニングされたモデルは、音響とセマンティックモデリングを同時に学ぶ必要があるが、事前訓練されたモデルは、後者に集中できる。
これらの知見に基づき、トレーニングの初期の段階からの情報を統合するために、デコーダのクロスアテンションの微妙な変更を提案する。
この変更により、スクラッチからトレーニングされたモデルは、トレーニング時間を短縮しつつ、事前トレーニングされたモデルに匹敵するパフォーマンスを達成できることが示される。
関連論文リスト
- Inter-connection: Effective Connection between Pre-trained Encoder and
Decoder for Speech Translation [10.103202030679844]
本稿では,音声事前学習モデルの各層から情報を集約する相互接続機構を提案する。
この機構は, 音声事前学習モデルが凍結した場合に, パラメータを2K増加させることで, en-de, en-ja, en-zhでBLEUを約2ポイント増加させた。
論文 参考訳(メタデータ) (2023-05-26T13:01:29Z) - INTapt: Information-Theoretic Adversarial Prompt Tuning for Enhanced
Non-Native Speech Recognition [43.228070238684786]
本稿では,自動音声認識システムにおける表現バイアスを軽減するために,インタプタ(Information Theoretic Adversarial Prompt Tuning)を提案する。
インタプタは,(1)原入力とプロンプト連結入力のアクセント特徴依存性を低減するための逆トレーニング,(2)ASR性能を向上させるためのCTC損失を最小限に抑えるトレーニング,の2つの方法で同時に訓練される。
実験の結果,インタプタはL2英語の性能を向上し,L2アクセントとL1アクセントの特徴的類似性を高めることがわかった。
論文 参考訳(メタデータ) (2023-05-25T13:06:01Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Instance Regularization for Discriminative Language Model Pre-training [108.41891836796366]
本研究は,言語モデル事前学習における劣化文から原文を復元する複雑性を推定することを提案する。
自然言語理解と読解のベンチマークによる実験結果から,本手法は事前学習の効率,有効性,堅牢性を向上することが示された。
論文 参考訳(メタデータ) (2022-10-11T14:16:37Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - SPIRAL: Self-supervised Perturbation-Invariant Representation Learning
for Speech Pre-Training [25.80559992732508]
SPIRALは、教師/学生のフレームワークにおいて、摂動データの表現を聴覚的に学習することで機能する。
本稿では,実環境における音声応用において重要なノイズ・ロバスト性の問題に対処する。
論文 参考訳(メタデータ) (2022-01-25T09:53:36Z) - Audio Captioning using Pre-Trained Large-Scale Language Model Guided by
Audio-based Similar Caption Retrieval [28.57294189207084]
音声キャプションの目的は、入力音声を自然言語を用いてその記述に変換することである。
提案手法は音声キャプションに事前学習した言語モデルを用いることに成功している。
事前訓練したモデルベースキャプションジェネレータのオラクル性能は,スクラッチから訓練した従来の方法よりも明らかに良好であった。
論文 参考訳(メタデータ) (2020-12-14T08:27:36Z) - Curriculum Pre-training for End-to-End Speech Translation [51.53031035374276]
本稿では,2つの言語における発話と単語のマッピングを理解するための,書き起こし学習の初等科目と2つの先進科目を含むカリキュラム事前学習手法を提案する。
実験の結果,カリキュラム事前学習手法は,En-De と En-Fr の音声翻訳ベンチマークを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2020-04-21T15:12:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。