論文の概要: A General Multi-Task Learning Framework to Leverage Text Data for Speech
to Text Tasks
- arxiv url: http://arxiv.org/abs/2010.11338v2
- Date: Thu, 11 Feb 2021 06:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 00:08:42.079332
- Title: A General Multi-Task Learning Framework to Leverage Text Data for Speech
to Text Tasks
- Title(参考訳): 音声とテキストタスクのためのテキストデータを活用した汎用マルチタスク学習フレームワーク
- Authors: Yun Tang, Juan Pino, Changhan Wang, Xutai Ma, Dmitriy Genzel
- Abstract要約: 本稿では,自動音声認識(ASR)と音声翻訳(ST)タスクのためのテキストデータを活用する汎用マルチタスク学習フレームワークを提案する。
テキスト入力を音素シーケンスとして表現することで、音声とテキスト入力の差を減らし、テキストコーパスからテキストタスクへの知識伝達を促進できることを示す。
- 参考スコア(独自算出の注目度): 36.216979991706594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based sequence-to-sequence modeling provides a powerful and elegant
solution for applications that need to map one sequence to a different
sequence. Its success heavily relies on the availability of large amounts of
training data. This presents a challenge for speech applications where labelled
speech data is very expensive to obtain, such as automatic speech recognition
(ASR) and speech translation (ST). In this study, we propose a general
multi-task learning framework to leverage text data for ASR and ST tasks. Two
auxiliary tasks, a denoising autoencoder task and machine translation task, are
proposed to be co-trained with ASR and ST tasks respectively. We demonstrate
that representing text input as phoneme sequences can reduce the difference
between speech and text inputs, and enhance the knowledge transfer from text
corpora to the speech to text tasks. Our experiments show that the proposed
method achieves a relative 10~15% word error rate reduction on the English
Librispeech task compared with our baseline, and improves the speech
translation quality on the MuST-C tasks by 3.6~9.2 BLEU.
- Abstract(参考訳): 注意に基づくシーケンスからシーケンスへのモデリングは、あるシーケンスを別のシーケンスにマップする必要があるアプリケーションに対して強力でエレガントなソリューションを提供します。
その成功は、大量のトレーニングデータの可用性に大きく依存している。
本稿では,音声認識(ASR)や音声翻訳(ST)など,ラベル付き音声データを得るのに非常にコストがかかる音声アプリケーションに課題を提起する。
本研究では,ASRタスクとSTタスクのテキストデータを活用する汎用マルチタスク学習フレームワークを提案する。
自動エンコーダタスクと機械翻訳タスクの2つの補助タスクは、それぞれASRとSTタスクとの共同訓練を行うことが提案されている。
テキスト入力を音素シーケンスとして表現することで、音声とテキスト入力の差を減らし、テキストコーパスからテキストタスクへの知識伝達を促進できることを示す。
実験の結果,提案手法は英語のLibrispeechタスクの単語誤り率の相対10~15%削減を実現し,MST-Cタスクの音声翻訳品質を3.6~9.2BLEU向上させることがわかった。
関連論文リスト
- Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - GRASS: Unified Generation Model for Speech-to-Semantic Tasks [7.044414457214718]
本稿では,音声データに対するタスク関連プロンプトに条件付きターゲットテキストを生成する統合エンドツーエンド(E2E)フレームワークを提案する。
提案モデルでは, 実体認識, 音声感情分析, 音声質問応答などを含む多くのベンチマークにおいて, 最先端のSOTA(State-of-the-art)結果が得られた。
音声合成タスクの微調整の今後の取り組みを容易にするため,命令データセットとコードをリリースする。
論文 参考訳(メタデータ) (2023-09-06T06:44:26Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - MAESTRO: Matched Speech Text Representations through Modality Matching [35.566604806335626]
Maestroは、音声とテキストのモダリティから学習した表現を統一する自己教師型訓練手法である。
単語誤り率(WER)を11%低減したVoxPopuli多言語ASR上でのSOTA(State-of-the-art)を確立する。
我々はCoVoST 2上に新しい最先端のSOTA(State-of-the-art)を確立し、21以上の言語で平均2.8BLEUを改善した。
論文 参考訳(メタデータ) (2022-04-07T12:48:16Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。