論文の概要: SLM: Bridge the thin gap between speech and text foundation models
- arxiv url: http://arxiv.org/abs/2310.00230v1
- Date: Sat, 30 Sep 2023 02:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 05:39:23.848540
- Title: SLM: Bridge the thin gap between speech and text foundation models
- Title(参考訳): SLM: 音声とテキスト基礎モデルの薄いギャップを埋める
- Authors: Mingqiu Wang, Wei Han, Izhak Shafran, Zelin Wu, Chung-Cheng Chiu, Yuan
Cao, Yongqiang Wang, Nanxin Chen, Yu Zhang, Hagen Soltau, Paul Rubenstein,
Lukas Zilka, Dian Yu, Zhong Meng, Golan Pundak, Nikhil Siddhartha, Johan
Schalkwyk, Yonghui Wu
- Abstract要約: 音声・言語モデル (SLM) は、事前訓練された基礎言語モデルと言語モデルを利用するマルチタスク、多言語、二重モーダルモデルである。
我々は、SLMは訓練に効率的であるが、異なるモダリティの基盤モデルで既に獲得されている強力な能力を継承することを示した。
- 参考スコア(独自算出の注目度): 45.319071954143325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a joint Speech and Language Model (SLM), a multitask,
multilingual, and dual-modal model that takes advantage of pretrained
foundational speech and language models. SLM freezes the pretrained foundation
models to maximally preserves their capabilities, and only trains a simple
adapter with just 1\% (156M) of the foundation models' parameters. This
adaptation not only leads SLM to achieve strong performance on conventional
tasks such as speech recognition (ASR) and speech translation (AST), but also
introduces the novel capability of zero-shot instruction-following for more
diverse tasks: given a speech input and a text instruction, SLM is able to
perform unseen generation tasks including contextual biasing ASR using
real-time context, dialog generation, speech continuation, and question
answering, etc. Our approach demonstrates that the representational gap between
pretrained speech and language models might be narrower than one would expect,
and can be bridged by a simple adaptation mechanism. As a result, SLM is not
only efficient to train, but also inherits strong capabilities already acquired
in foundation models of different modalities.
- Abstract(参考訳): 本稿では,事前訓練された基礎言語モデルと言語モデルを活用するマルチタスク,多言語モデル,およびデュアルモーダルモデルであるSLM(Joint Speech and Language Model)を提案する。
SLMはトレーニング済みの基礎モデルを凍結し、その能力を最大限に保存し、基礎モデルのパラメータのたった1\% (156M)の単純なアダプタを訓練する。
この適応により、SLMは、音声認識(ASR)や音声翻訳(AST)といった従来のタスクにおいて強力なパフォーマンスを達成するだけでなく、より多様なタスクに対してゼロショットの指示追従機能を導入することができる。
提案手法は,事前学習した音声と言語モデルとの表現的ギャップが期待するよりも狭く,単純な適応機構によって橋渡しできることを示す。
結果として、SLMは訓練に効率的であるだけでなく、異なるモダリティの基盤モデルで既に獲得されている強力な能力を継承する。
関連論文リスト
- SpiRit-LM: Interleaved Spoken and Written Language Model [45.44798658207754]
SPIRIT-LMは、テキストと音声を自由に混合する基礎的マルチモーダル言語モデルである。
モデルは、事前訓練されたテキスト言語モデルに基づいており、テキストと音声ユニットで継続的にトレーニングすることで、音声モダリティに拡張する。
論文 参考訳(メタデータ) (2024-02-08T15:39:32Z) - SALM: Speech-augmented Language Model with In-context Learning for
Speech Recognition and Translation [26.778332992311043]
本稿では,エム・マルチタスクとエム・イン・コンテクスト学習機能を備えた音声拡張言語モデル(SALM)を提案する。
SALMは自動音声認識(ASR)と音声翻訳(AST)のためのタスク固有のコンバータベースラインと同等の性能を達成する
論文 参考訳(メタデータ) (2023-10-13T22:07:33Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - Spoken Question Answering and Speech Continuation Using
Spectrogram-Powered LLM [20.094593730079403]
本稿では,事前学習された大規模言語モデル(LLM)を用いて質問応答(QA)と音声継続を行う手法を提案する。
LLMに事前訓練された音声エンコーダを付与することにより、我々のモデルは音声入力を取り込み、音声出力を生成することができる。
我々のアプローチの鍵は、音声認識、テキスト継続、音声合成を共同で監督する訓練目標である。
論文 参考訳(メタデータ) (2023-05-24T15:39:43Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。