論文の概要: Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization
- arxiv url: http://arxiv.org/abs/2306.04233v1
- Date: Wed, 7 Jun 2023 08:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 15:38:31.933847
- Title: Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization
- Title(参考訳): 訓練済み言語モデルからの伝達学習によるエンドツーエンド音声要約の改善
- Authors: Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Tomohiro Tanaka,
Takatomo Kano, Atsunori Ogawa, Marc Delcroix
- Abstract要約: エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
- 参考スコア(独自算出の注目度): 48.35495352015281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end speech summarization (E2E SSum) directly summarizes input speech
into easy-to-read short sentences with a single model. This approach is
promising because it, in contrast to the conventional cascade approach, can
utilize full acoustical information and mitigate to the propagation of
transcription errors. However, due to the high cost of collecting
speech-summary pairs, an E2E SSum model tends to suffer from training data
scarcity and output unnatural sentences. To overcome this drawback, we propose
for the first time to integrate a pre-trained language model (LM), which is
highly capable of generating natural sentences, into the E2E SSum decoder via
transfer learning. In addition, to reduce the gap between the independently
pre-trained encoder and decoder, we also propose to transfer the baseline E2E
SSum encoder instead of the commonly used automatic speech recognition encoder.
Experimental results show that the proposed model outperforms baseline and data
augmented models.
- Abstract(参考訳): エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
従来のカスケード手法とは対照的に、完全な音響情報を利用し、転写誤りの伝播を軽減できるため、このアプローチは有望である。
しかし, 音声対の収集コストが高いため, E2E SSumモデルは訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
この欠点を克服するために、我々は、翻訳学習を通じてE2E SSumデコーダに自然文を生成することができる事前学習言語モデル(LM)を初めて統合することを提案する。
また, 独立学習エンコーダとデコーダとのギャップを低減するため, 一般的な自動音声認識エンコーダの代わりに, ベースラインe2e ssumエンコーダを転送する提案を行う。
実験結果から,提案モデルはベースラインやデータ拡張モデルよりも優れていた。
関連論文リスト
- UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Regularizing End-to-End Speech Translation with Triangular Decomposition
Agreement [27.87144563354033]
本稿では,三重項データにおける二経路分解の整合性を改善するためのモデルトレーニングのための新しい正規化手法を提案する。
MuST-Cベンチマーク実験により,提案手法は最先端のE2E-STベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2021-12-21T05:24:01Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - Speech-language Pre-training for End-to-end Spoken Language
Understanding [18.548949994603213]
本稿では,e2e asrエンコーダ (speech) と事前学習した言語モデルエンコーダ (language) をトランスフォーマデコーダに統合する。
2つの公開コーパスによる実験結果から,E2E SLUへのアプローチは従来のカスケード法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-11T21:55:48Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。