論文の概要: Textually Pretrained Speech Language Models
- arxiv url: http://arxiv.org/abs/2305.13009v3
- Date: Tue, 30 Jan 2024 11:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 19:27:37.973934
- Title: Textually Pretrained Speech Language Models
- Title(参考訳): テキスト事前学習言語モデル
- Authors: Michael Hassid, Tal Remez, Tu Anh Nguyen, Itai Gat, Alexis Conneau,
Felix Kreuk, Jade Copet, Alexandre Defossez, Gabriel Synnaeve, Emmanuel
Dupoux, Roy Schwartz, Yossi Adi
- Abstract要約: 本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
- 参考スコア(独自算出の注目度): 107.10344535390956
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech language models (SpeechLMs) process and generate acoustic data only,
without textual supervision. In this work, we propose TWIST, a method for
training SpeechLMs using a warm-start from a pretrained textual language
models. We show using both automatic and human evaluations that TWIST
outperforms a cold-start SpeechLM across the board. We empirically analyze the
effect of different model design choices such as the speech tokenizer, the
pretrained textual model, and the dataset size. We find that model and dataset
scale both play an important role in constructing better-performing SpeechLMs.
Based on our observations, we present the largest (to the best of our
knowledge) SpeechLM both in terms of number of parameters and training data. We
additionally introduce two spoken versions of the StoryCloze textual benchmark
to further improve model evaluation and advance future research in the field.
We make speech samples, code and models publicly available:
https://pages.cs.huji.ac.il/adiyoss-lab/twist/ .
- Abstract(参考訳): 音声言語モデル(SpeechLMs)は、テキストの監督なしに、音声データのみを処理し、生成する。
本研究では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
音声トークン化器,事前学習されたテキストモデル,データセットサイズなど,異なるモデル設計選択の影響を実験的に分析した。
モデルとデータセットのスケールはどちらも,より高性能なSpeechLMを構築する上で重要な役割を担っている。
私たちの観察に基づいて、パラメータ数とトレーニングデータの両方の観点から、最も大きい(我々の知識を最大限に活用する)スピーチlmを提示する。
さらに, モデル評価をさらに改善し, 今後の研究を進めるために, storycloze textual benchmark の2つの音声版を導入する。
音声サンプル、コード、モデルを公開しています。
関連論文リスト
- Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - Teach me with a Whisper: Enhancing Large Language Models for Analyzing
Spoken Transcripts using Speech Embeddings [8.660203441911554]
本稿では,音声データを利用した言語モデルの学習手法を提案する。
これにより、テスト時のオーディオ処理オーバーヘッドを回避しつつ、音声書き起こしを解析するための言語モデルが改善される。
本実験では, 従来の言語モデルに対して, 音声書き起こし解析のタスクにおいて一貫した改善が達成された。
論文 参考訳(メタデータ) (2023-11-13T01:53:12Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion
and Adversarial Training with Large Speech Language Models [19.029030168939354]
StyleTTS 2は、大きな音声言語モデル(SLM)によるスタイル拡散と対角訓練を活用して、人間レベルのTS合成を実現するテキスト音声合成(TTS)モデルである。
StyleTTS 2は、単一話者のLJSpeechデータセット上の人間の記録を上回り、ネイティブ英語話者によって判断されるマルチ話者のVCTKデータセットにマッチする。
この研究は、単一話者と複数話者のデータセット上で初めての人間レベルのTSを実現し、大きなSLMを用いたスタイル拡散と対角訓練の可能性を示した。
論文 参考訳(メタデータ) (2023-06-13T11:04:43Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。