論文の概要: SpeechMapper: Speech-to-text Embedding Projector for LLMs
- arxiv url: http://arxiv.org/abs/2601.20417v1
- Date: Wed, 28 Jan 2026 09:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.87495
- Title: SpeechMapper: Speech-to-text Embedding Projector for LLMs
- Title(参考訳): SpeechMapper:LLMのための音声からテキストへの埋め込みプロジェクタ
- Authors: Biswesh Mohapatra, Marcely Zanon Boito, Ioan Calapodescu,
- Abstract要約: SpeechMapper はコスト効率のよい音声からLLMへの埋め込み訓練手法である。
過度な適合を緩和し、より堅牢で一般化可能なモデルを可能にする。
- 参考スコア(独自算出の注目度): 8.608235759695287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current speech LLMs bridge speech foundation models to LLMs using projection layers, training all of these components on speech instruction data. This strategy is computationally intensive and susceptible to task and prompt overfitting. We present SpeechMapper, a cost-efficient speech-to-LLM-embedding training approach that mitigates overfitting, enabling more robust and generalizable models. Our model is first pretrained without the LLM on inexpensive hardware, and then efficiently attached to the target LLM via a brief 1K-step instruction tuning (IT) stage. Through experiments on speech translation and spoken question answering, we demonstrate the versatility of SpeechMapper's pretrained block, presenting results for both task-agnostic IT, an ASR-based adaptation strategy that does not train in the target task, and task-specific IT. In task-agnostic settings, Speechmapper rivals the best instruction-following speech LLM from IWSLT25, despite never being trained on these tasks, while in task-specific settings, it outperforms this model across many datasets, despite requiring less data and compute. Overall, SpeechMapper offers a practical and scalable approach for efficient, generalizable speech-LLM integration without large-scale IT.
- Abstract(参考訳): 現在のLLMは、プロジェクション層を用いて音声基礎モデルをLLMにブリッジし、これらすべてのコンポーネントを音声指示データに基づいて訓練する。
この戦略は計算集約的で、タスクに影響を受けやすい。
我々は,より堅牢で一般化可能なモデルを実現するために,過剰適合を緩和する費用対LLM埋め込みトレーニング手法であるSpeechMapperを提案する。
我々のモデルは、まず安価なハードウェア上でLLMを使わずに事前訓練され、その後、短い1Kステップのインストラクションチューニング(IT)ステージを介して、ターゲットのLLMに効率的にアタッチされる。
音声翻訳と音声質問応答の実験を通じて、SpeechMapperの事前学習ブロックの汎用性を実証し、タスクに依存しないIT、ターゲットタスクでトレーニングしないASRベースの適応戦略、タスク固有のITの両方について結果を示す。
タスクに依存しない設定では、SpeechmapperはIWSLT25の最高の命令追従音声LLMと競合するが、タスク固有の設定では、データや計算の少ないにもかかわらず、このモデルを多くのデータセットで上回っている。
全体として、SpeechMapperは、大規模ITを使わずに、効率的で一般化可能な音声-LLM統合のための実用的でスケーラブルなアプローチを提供する。
関連論文リスト
- AzeroS: Extending LLM to Speech with Self-Generated Instruction-Free Tuning [49.68129589035101]
AZeroS (Auden Zero-Instruction-tuned Speech-LLM) を導入する。
AZeroSはセマンティックベンチマークとパラ言語ベンチマークの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-31T04:05:04Z) - TESU-LLM: Training Speech-LLMs Without Speech via Unified Encoder Alignment [15.899112804399193]
textbfTESU-LLMは,テキストデータのみを用いた音声対応言語モデルの学習を可能にする新しいフレームワークである。
我々の重要な洞察は、意味論的に等価なテキストと音声入力を共有潜在空間にマッピングする統一エンコーダを活用することである。
TESU-LLMはテキストのみに訓練されているにもかかわらず、様々な音声関連ベンチマークで高い性能を達成している。
論文 参考訳(メタデータ) (2025-06-01T09:27:55Z) - Enhancing Generalization of Speech Large Language Models with Multi-Task Behavior Imitation and Speech-Text Interleaving [36.246791887458194]
大規模言語モデル(LLM)はタスク間で顕著な一般化を示している。
LLMは通常、教師付き微調整を使用して、テキストベースのLLMと音声を一致させる。
本稿では,音声テキストをインターリーブしたマルチタスクの「行動模倣」手法を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:09:13Z) - Contrastive Learning for Task-Independent SpeechLLM-Pretraining [14.531386555183596]
大規模言語モデル(LLM)は自然言語処理に優れている。
タスク固有の微調整は、リスク、データ要求、計算コストの過度な適合によって制限される。
スケーラブルな2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-12-20T09:33:31Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。