論文の概要: Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM
- arxiv url: http://arxiv.org/abs/2605.05927v1
- Date: Thu, 07 May 2026 09:32:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.668121
- Title: Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM
- Title(参考訳): 入力側からのモダリティギャップを最小化する:あなたの音声LLMは韻律対応のテキストLLMになれる
- Authors: Wenqian Cui, Xiao-Hui Li, Daxin Tan, Qiyong Zheng, Irwin King,
- Abstract要約: 音声入力を韻律対応のテキストLLMとよりよく類似させるSLMであるTextPro-SLMを提案する。
TextPro-SLMは、同期されたテキストトークンと韻律埋め込みを生成する統一された音声エンコーダであるWhisperProを組み合わせる。
実験の結果,TextPro-SLMは3Bスケールと7Bスケールの両方において,最下位のSLM間のモダリティギャップを達成できることがわかった。
- 参考スコア(独自算出の注目度): 42.247507898670335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech large language models (SLMs) are typically built from text large language model (TLM) checkpoints, yet they still suffer from a substantial modality gap. Prior work has mainly attempted to reduce this gap from the output side by making speech generation more text-like, but the gap remains. We argue that the key remaining bottleneck lies on the input side. We propose TextPro-SLM, an SLM that makes spoken input more closely resemble that of a prosody-aware text LLM. TextPro-SLM combines WhisperPro, a unified speech encoder that produces synchronized text tokens and prosody embeddings, with an LLM backbone trained to preserve the semantic capabilities of the original TLM while learning paralinguistic understanding. Experiments show that TextPro-SLM achieves the lowest modality gap among leading SLMs at both 3B and 7B scales, while also delivering strong overall performance on paralinguistic understanding tasks. These gains are achieved with only roughly 1,000 hours of LLM training audio, suggesting that reducing the modality gap from the input side is both effective and data-efficient.
- Abstract(参考訳): 音声大言語モデル(SLM)は通常、テキスト大言語モデル(TLM)チェックポイントから構築されるが、それでもかなりのモダリティギャップに悩まされている。
従来の研究は主に、音声生成をよりテキストライクにすることで、このギャップを出力側から減らそうとしてきたが、そのギャップは依然として残っている。
重要なボトルネックは入力側にある、と我々は主張する。
音声入力を韻律対応のテキストLLMとよりよく類似させるSLMであるTextPro-SLMを提案する。
TextPro-SLMは、同期されたテキストトークンと韻律埋め込みを生成する統一された音声エンコーダであるWhisperProと、パラ言語的理解を学習しながら、元のTLMの意味的能力を維持するために訓練されたLLMバックボーンを組み合わせる。
実験の結果,TextPro-SLMは3Bスケールと7BスケールのSLMにおいて最下位のモダリティギャップを達成し,またパラ言語的理解タスクの全体的な性能も向上した。
これらの利得は、LLMトレーニングオーディオの約1000時間で達成され、入力側からのモダリティギャップの低減は、効率的かつデータ効率の両立を示唆している。
関連論文リスト
- Adapting Text LLMs to Speech via Multimodal Depth Up-Scaling [52.02344262645619]
本稿では,新しいトランス層を凍結テキストLLMに挿入し,付加層のみを音声データに基づいて訓練するマルチモーダル深さアップスケーリングを提案する。
SmolLM2-360MとSmolLM2-1.7Bによる48k時間の英語自動音声認識(ASR)データによる実験により、深度アップスケーリングは完全な微調整に匹敵するASRを実現することが示された。
さらに,テキストの劣化を75%以上低減し,トレーニング可能なパラメータを60%少なく抑えながら,大規模モデルの完全微調整に適合あるいは超越したASRを実現するために,音声認識用に設計されたアーキテクチャであるE-Branchformerを組み込むことが示される。
論文 参考訳(メタデータ) (2026-04-01T05:16:06Z) - Closing the Gap Between Text and Speech Understanding in LLMs [28.538793793887223]
大規模言語モデルは、テキスト機能を音声入力に拡張するために適応することができる。
これらの言語適応型LLMは、テキストベースのものよりも一貫して性能が劣っている。
SALAD-Sample- efficient Alignment with Learning through Active selection and cross-modal Distillation。
論文 参考訳(メタデータ) (2025-10-15T14:57:16Z) - ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
本稿では,テキスト適応型音声トークン化と埋め込み(TASTE)を導入し,トークン化段階における音声トークンと対応するテキストの書き起こしを一致させる。
我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。
実験の結果,TASTEを用いたSLMはSALMONやStoryClozeに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-09T17:14:33Z) - LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM [35.443850239910866]
本稿では、低レイテンシで高品質な音声を生成する軽量で自己回帰型ストリーミングTSシステムを提案する。
提案手法は,音声対応LLMに比べて単語誤り率を著しく低くし,レイテンシとUTMOSスコアに匹敵する操作を行う。
論文 参考訳(メタデータ) (2025-03-06T18:59:38Z) - Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。
我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。
テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文 参考訳(メタデータ) (2023-12-30T14:20:04Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Speak While You Think: Streaming Speech Synthesis During Text Generation [13.964169328257233]
大きな言語モデル(LLM)は印象的な能力を示しているが、これらのモデルとの相互作用は主にテキストで容易にできる。
LLM2Speechは、LLMによってテキストが生成されている間に音声を合成するアーキテクチャであり、遅延の大幅な低減をもたらす。
論文 参考訳(メタデータ) (2023-09-20T11:00:15Z) - Assessing Phrase Break of ESL Speech with Pre-trained Language Models
and Large Language Models [7.782346535009883]
本研究では,事前学習言語モデル (PLM) と大規模言語モデル (LLM) を用いて,ESL学習者の音声における句分割の評価手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T07:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。