Fugu-MT 論文翻訳(概要): SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data

論文の概要: SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data

arxiv url: http://arxiv.org/abs/2209.15329v3
Date: Thu, 15 Jun 2023 14:43:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-17 03:34:15.698314
Title: SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data
Title（参考訳）: SpeechLM: テキストデータによる音声事前学習の強化
Authors: Ziqiang Zhang, Sanyuan Chen, Long Zhou, Yu Wu, Shuo Ren, Shujie Liu, Zhuoyuan Yao, Xun Gong, Lirong Dai, Jinyu Li, Furu Wei
Abstract要約: 本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
参考スコア（独自算出の注目度）: 100.46303484627045
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How to boost speech pre-training with textual data is an unsolved problem due to the fact that speech and text are very different modalities with distinct characteristics. In this paper, we propose a cross-modal Speech and Language Model (SpeechLM) to explicitly align speech and text pre-training with a pre-defined unified discrete representation. Specifically, we introduce two alternative discrete tokenizers to bridge the speech and text modalities, including phoneme-unit and hidden-unit tokenizers, which can be trained using a small amount of paired speech-text data. Based on the trained tokenizers, we convert the unlabeled speech and text data into tokens of phoneme units or hidden units. The pre-training objective is designed to unify the speech and the text into the same discrete semantic space with a unified Transformer network. We evaluate SpeechLM on various spoken language processing tasks including speech recognition, speech translation, and universal representation evaluation framework SUPERB, demonstrating significant improvements on content-related tasks. Code and models are available at https://aka.ms/SpeechLM.
Abstract（参考訳）: 音声とテキストが異なる特徴を持つ非常に異なるモダリティであるという事実から,テキストデータによる音声事前学習の促進は未解決の問題である。本稿では,音声とテキストの事前学習を事前に定義した個別表現と明示的に整合させる言語モデル(SpeechLM)を提案する。具体的には、音声とテキストのモダリティをブリッジする2つの別の離散トークン化器(音素単位と隠れ単位トークン化器)を導入し、少量のペア音声テキストデータを用いて訓練する。訓練されたトークン化子に基づき、ラベルなしの音声とテキストデータを音素単位または隠れ単位のトークンに変換する。事前学習の目的は、音声とテキストを統一トランスフォーマーネットワークで同じ離散的な意味空間に統一することである。音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 各種音声言語処理タスクにおけるSpeechLM の評価を行い, 内容関連タスクの大幅な改善を示す。コードとモデルはhttps://aka.ms/speechlm.com/で入手できる。

関連論文リスト

Scheduled Interleaved Speech-Text Training for Speech-to-Speech Translation with LLMs [41.088390995105826]
音声音声翻訳 (S2ST) は大規模言語モデル (LLM) で進歩している。 LLMはテキストのみのデータに基づいて訓練され、音声から音声への限られたデータで、それらに適応するための課題が提示される。本研究では,本研究における音声教育の予定について述べる。
論文参考訳（メタデータ） (2025-06-12T02:24:44Z)
Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文参考訳（メタデータ） (2024-11-26T17:19:09Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。 AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文参考訳（メタデータ） (2022-11-29T13:16:09Z)
token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文参考訳（メタデータ） (2022-10-30T06:38:19Z)
Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。 MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文参考訳（メタデータ） (2022-04-11T20:59:51Z)
Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文参考訳（メタデータ） (2021-09-12T04:17:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。