論文の概要: Toward Joint Language Modeling for Speech Units and Text
- arxiv url: http://arxiv.org/abs/2310.08715v1
- Date: Thu, 12 Oct 2023 20:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 15:31:15.883502
- Title: Toward Joint Language Modeling for Speech Units and Text
- Title(参考訳): 音声単位とテキストの結合言語モデリングに向けて
- Authors: Ju-Chieh Chou, Chung-Ming Chien, Wei-Ning Hsu, Karen Livescu, Arun
Babu, Alexis Conneau, Alexei Baevski, Michael Auli
- Abstract要約: 音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
- 参考スコア(独自算出の注目度): 89.32163954508489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech and text are two major forms of human language. The research community
has been focusing on mapping speech to text or vice versa for many years.
However, in the field of language modeling, very little effort has been made to
model them jointly. In light of this, we explore joint language modeling for
speech units and text. Specifically, we compare different speech tokenizers to
transform continuous speech signals into discrete units and use different
methods to construct mixed speech-text data. We introduce automatic metrics to
evaluate how well the joint LM mixes speech and text. We also fine-tune the LM
on downstream spoken language understanding (SLU) tasks with different
modalities (speech or text) and test its performance to assess the model's
learning of shared representations. Our results show that by mixing speech
units and text with our proposed mixing techniques, the joint LM improves over
a speech-only baseline on SLU tasks and shows zero-shot cross-modal
transferability.
- Abstract(参考訳): 音声とテキストは人間の言語の主要な2つの形態である。
研究コミュニティは長年にわたり、音声をテキストにマッピングすることに注力してきた。
しかし、言語モデリングの分野では、それらを共同でモデル化する努力はほとんど行われていない。
そこで本研究では,音声単位とテキストの共用言語モデリングについて検討する。
具体的には,連続音声信号を離散単位に変換するために異なる音声トークン化器を比較し,異なる手法を用いて混合音声テキストデータを構築する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
また、異なるモダリティ(音声またはテキスト)を持つ下流言語理解(slu)タスクについてlmを微調整し、その性能をテストして共有表現のモデルの学習を評価する。
提案手法と音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良し,ゼロショットのクロスモーダル転送性を示した。
関連論文リスト
- Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z) - Spirit LM: Interleaved Spoken and Written Language Model [43.8568445216866]
テキストと音声を自由に混合する基礎的マルチモーダル言語モデルであるSpirit LMを紹介する。
Spirit LMには、音声音声ユニット(HuBERT)を使用するベースバージョンと、ピッチとスタイルユニットを使用して表現性をモデル化するExpressiveバージョンの2つのバージョンがある。
我々は、Spirit LMがモダリティを越えて数ショットで新しいタスクを学習できることを実証した。
論文 参考訳(メタデータ) (2024-02-08T15:39:32Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - mSLAM: Massively multilingual joint pre-training for speech and text [43.32334037420761]
mSLAMは、多言語で大量の未ラベルの音声とテキストを共同で事前学習することで、音声とテキストの言語間クロスモーダル表現を学習する。
テキストによる共同事前学習により、音声翻訳、音声意図分類、音声言語-IDの質が向上することがわかった。
論文 参考訳(メタデータ) (2022-02-03T02:26:40Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。