論文の概要: Adapting Text LLMs to Speech via Multimodal Depth Up-Scaling
- arxiv url: http://arxiv.org/abs/2604.00489v1
- Date: Wed, 01 Apr 2026 05:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.841331
- Title: Adapting Text LLMs to Speech via Multimodal Depth Up-Scaling
- Title(参考訳): マルチモーダル深さアップスケーリングによるテキストLLMの音声への適応
- Authors: Kazuki Yano, Jun Suzuki, Shinji Watanabe,
- Abstract要約: 本稿では,新しいトランス層を凍結テキストLLMに挿入し,付加層のみを音声データに基づいて訓練するマルチモーダル深さアップスケーリングを提案する。
SmolLM2-360MとSmolLM2-1.7Bによる48k時間の英語自動音声認識(ASR)データによる実験により、深度アップスケーリングは完全な微調整に匹敵するASRを実現することが示された。
さらに,テキストの劣化を75%以上低減し,トレーニング可能なパラメータを60%少なく抑えながら,大規模モデルの完全微調整に適合あるいは超越したASRを実現するために,音声認識用に設計されたアーキテクチャであるE-Branchformerを組み込むことが示される。
- 参考スコア(独自算出の注目度): 52.02344262645619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting pre-trained text Large Language Models (LLMs) into Speech Language Models (Speech LMs) via continual pretraining on speech data is promising, but often degrades the original text capabilities. We propose Multimodal Depth Upscaling, an extension of an emerging strategy in continual LLM pre-training, where new transformer layers are inserted into a frozen text LLM and only the added layers are trained on speech data. Experiments with SmolLM2-360M and SmolLM2-1.7B on 48k hours of English Automatic Speech Recognition (ASR) data show that depth up-scaling achieves ASR comparable to full fine-tuning while causing far less text degradation than both full fine-tuning and Low-Rank Adaptation (LoRA). We further show that incorporating E-Branchformer, an architecture designed for speech recognition, as the inserted layers achieves ASR that matches or surpasses full fine-tuning on the larger model while reducing text degradation by over 75% with 60% fewer trainable parameters.
- Abstract(参考訳): 事前訓練されたテキスト大言語モデル(LLM)を音声データに対する連続的な事前学習を通じて音声言語モデル(Speech LM)に適応させることは有望であるが、しばしば元のテキスト能力を劣化させる。
連続LLM事前学習における新興戦略の拡張であるMultimodal Depth Upscalingを提案し、新しいトランスフォーマー層を凍結テキストLLMに挿入し、追加した層のみを音声データに基づいて訓練する。
SmolLM2-360MとSmolLM2-1.7Bによる48k時間の英語自動音声認識(ASR)データによる実験では、深度アップスケーリングは完全な微調整に匹敵するASRを実現し、フル微調整とローランド適応(LoRA)の両方よりもはるかに少ないテキスト劣化を引き起こす。
さらに,テキストの劣化を75%以上低減し,トレーニング可能なパラメータを60%少なく抑えながら,より大きなモデル上での完全な微調整にマッチあるいは超越したASRを実現するために,音声認識用に設計されたアーキテクチャであるE-Branchformerを組み込むことが示される。
関連論文リスト
- TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
本稿では,テキスト適応型音声トークン化と埋め込み(TASTE)を導入し,トークン化段階における音声トークンと対応するテキストの書き起こしを一致させる。
我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。
実験の結果,TASTEを用いたSLMはSALMONやStoryClozeに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-09T17:14:33Z) - Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。
我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文 参考訳(メタデータ) (2024-12-24T17:37:11Z) - Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM [44.59026505152727]
本稿では, Freeze-Omni という, 音声文によるマルチモーダルLLMアーキテクチャを提案する。
我々の主な貢献は、音声入力と出力のモダリティがテキストLLMに容易に接続できることである。
さらに,マルチタスク学習による二重対話能力を実現する手法も設計した。
論文 参考訳(メタデータ) (2024-11-01T17:59:51Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection [8.683288452838136]
大規模言語モデル(LLM)は人間のような会話を約束しているが、主にテキストデータに基づいて事前訓練されている。
本稿では,事前学習した単調なLDMを効率よく適用し,これまで目に見えなかった新しいモダリティを消費するFLORA手法を提案する。
デバイス指向音声検出では、FLoRAを用いることで、テキストのみのアプローチに比べて、マルチモーダルLLMは22%の誤差率(EER)の相対的な低減を実現している。
論文 参考訳(メタデータ) (2024-06-13T22:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。