論文の概要: Inter-connection: Effective Connection between Pre-trained Encoder and
Decoder for Speech Translation
- arxiv url: http://arxiv.org/abs/2305.16897v1
- Date: Fri, 26 May 2023 13:01:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 14:53:59.296947
- Title: Inter-connection: Effective Connection between Pre-trained Encoder and
Decoder for Speech Translation
- Title(参考訳): インターコネクション: 音声翻訳のための事前学習エンコーダとデコーダの効果的接続
- Authors: Yuta Nishikawa, Satoshi Nakamura
- Abstract要約: 本稿では,音声事前学習モデルの各層から情報を集約する相互接続機構を提案する。
この機構は, 音声事前学習モデルが凍結した場合に, パラメータを2K増加させることで, en-de, en-ja, en-zhでBLEUを約2ポイント増加させた。
- 参考スコア(独自算出の注目度): 10.103202030679844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In end-to-end speech translation, speech and text pre-trained models improve
translation quality. Recently proposed models simply connect the pre-trained
models of speech and text as encoder and decoder. Therefore, only the
information from the final layer of encoders is input to the decoder. Since it
is clear that the speech pre-trained model outputs different information from
each layer, the simple connection method cannot fully utilize the information
that the speech pre-trained model has. In this study, we propose an
inter-connection mechanism that aggregates the information from each layer of
the speech pre-trained model by weighted sums and inputs into the decoder. This
mechanism increased BLEU by approximately 2 points in en-de, en-ja, and en-zh
by increasing parameters by 2K when the speech pre-trained model was frozen.
Furthermore, we investigated the contribution of each layer for each language
by visualizing layer weights and found that the contributions were different.
- Abstract(参考訳): エンドツーエンドの音声翻訳では、音声とテキストの事前学習モデルによって翻訳品質が向上する。
最近提案されたモデルは、音声とテキストの事前学習されたモデルをエンコーダとデコーダとして接続する。
従って、エンコーダの最終層からの情報のみがデコーダに入力される。
音声事前学習モデルが各層から異なる情報を出力することは明らかであり、簡易接続法は、音声事前学習モデルが有する情報を完全に活用することはできない。
本研究では,重み付き和とデコーダへの入力により,音声事前学習モデルの各層からの情報を集約する相互接続機構を提案する。
この機構は, 音声事前学習モデルが凍結した場合に, パラメータを2K増加させることで, en-de, en-ja, en-zhでBLEUを約2ポイント増加させた。
さらに,各言語に対する各レイヤの寄与について,各レイヤの重みを可視化することにより検討した。
関連論文リスト
- Unveiling the Role of Pretraining in Direct Speech Translation [14.584351239812394]
我々は,事前学習エンコーダを用いたシステムのトレーニング力学,従来のアプローチ,スクラッチからトレーニングしたシステムを比較した。
学習を通して、ランダムモデルがその予測のために音声入力からの情報を組み込むのに苦労していることを観察する。
本稿では,デコーダのクロスアテンションを微妙に変化させ,トレーニングの初期の段階からソース情報を統合することを提案する。
論文 参考訳(メタデータ) (2024-09-26T16:46:46Z) - CoLLD: Contrastive Layer-to-layer Distillation for Compressing
Multilingual Pre-trained Speech Encoders [19.32466171141613]
大規模自己教師型事前学習音声エンコーダは、音声認識や翻訳タスクにおいて従来の手法よりも優れていた。
新しいタスクのための新しいエンコーダを構築し、デバイス上のアプリケーションにデプロイすることは不可能である。
本研究では,事前学習した音声エンコーダを圧縮する新しい知識蒸留法であるContrastive Layer-to-layer Distillation (CoLLD)を提案する。
論文 参考訳(メタデータ) (2023-09-14T13:38:02Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。