論文の概要: VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2410.17485v1
- Date: Wed, 23 Oct 2024 00:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:30.575799
- Title: VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning
- Title(参考訳): VoiceTextBlender:単一段階共同音声テキスト監視による音声機能付き大規模言語モデルの拡張
- Authors: Yifan Peng, Krishna C. Puvvada, Zhehuai Chen, Piotr Zelasko, He Huang, Kunal Dhawan, Ke Hu, Shinji Watanabe, Jagadeesh Balam, Boris Ginsburg,
- Abstract要約: 大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 64.56272011710735
- License:
- Abstract: Recent studies have augmented large language models (LLMs) with speech capabilities, leading to the development of speech language models (SpeechLMs). Earlier SpeechLMs focused on single-turn speech-based question answering (QA), where user input comprised a speech context and a text question. More recent studies have extended this to multi-turn conversations, though they often require complex, multi-stage supervised fine-tuning (SFT) with diverse data. Another critical challenge with SpeechLMs is catastrophic forgetting-where models optimized for speech tasks suffer significant degradation in text-only performance. To mitigate these issues, we propose a novel single-stage joint speech-text SFT approach on the low-rank adaptation (LoRA) of the LLM backbone. Our joint SFT combines text-only SFT data with three types of speech-related data: speech recognition and translation, speech-based QA, and mixed-modal SFT. Compared to previous SpeechLMs with 7B or 13B parameters, our 3B model demonstrates superior performance across various speech benchmarks while preserving the original capabilities on text-only tasks. Furthermore, our model shows emergent abilities of effectively handling previously unseen prompts and tasks, including multi-turn, mixed-modal inputs.
- Abstract(参考訳): 近年,音声機能を備えた拡張大型言語モデル (LLM) が開発され,音声モデル (SpeechLMs) の開発が進んでいる。
従来のSpeechLMは、音声コンテキストとテキスト質問をユーザが入力する単一ターン音声ベースの質問応答(QA)に焦点を当てていた。
近年の研究では、これをマルチターン会話に拡張しているが、多種多様なデータを伴う複雑な多段階教師あり微調整(SFT)を必要とすることが多い。
SpeechLMsのもう一つの重要な課題は、音声タスクに最適化されたモデルがテキストのみのパフォーマンスを著しく低下させることである。
これらの問題を緩和するために,LLMバックボーンの低ランク適応(LoRA)に対する単一段階の音声テキストSFTアプローチを提案する。
我々の共同SFTは、テキストのみのSFTデータと、音声認識と翻訳、音声ベースのQA、混合モーダルSFTの3種類の音声関連データを組み合わせた。
従来のSpeechLMと7Bまたは13Bパラメータを比較して,テキストのみのタスクにおいて,元の処理能力を保ちながら,様々な音声ベンチマークにおいて優れた性能を示す。
さらに,本モデルでは,マルチターン・ミックスモーダル入力を含む未確認のプロンプトやタスクを効果的に処理する能力を示す。
関連論文リスト
- Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation [14.746190461312036]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
そこで本稿では,TTS-Llamaモデルを用いたテキスト音声合成(TTS)システムを提案する。
さらに,テキストと音声によるマルチモーダルLLMであるMoLE-Llamaを提案する。
論文 参考訳(メタデータ) (2024-10-27T04:28:57Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - SLM: Bridge the thin gap between speech and text foundation models [45.319071954143325]
音声・言語モデル (SLM) は、事前訓練された基礎言語モデルと言語モデルを利用するマルチタスク、多言語、二重モーダルモデルである。
我々は、SLMは訓練に効率的であるが、異なるモダリティの基盤モデルで既に獲得されている強力な能力を継承することを示した。
論文 参考訳(メタデータ) (2023-09-30T02:27:45Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。