論文の概要: AzeroS: Extending LLM to Speech with Self-Generated Instruction-Free Tuning
- arxiv url: http://arxiv.org/abs/2601.06086v1
- Date: Wed, 31 Dec 2025 04:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.627849
- Title: AzeroS: Extending LLM to Speech with Self-Generated Instruction-Free Tuning
- Title(参考訳): AzeroS:自己生成型インストラクションフリーチューニングによるLLMから音声への拡張
- Authors: Yiwen Shao, Wei Liu, Jiahong Li, Tianzi Wang, Kun Wei, Meng Yu, Dong Yu,
- Abstract要約: AZeroS (Auden Zero-Instruction-tuned Speech-LLM) を導入する。
AZeroSはセマンティックベンチマークとパラ言語ベンチマークの両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 49.68129589035101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extending large language models (LLMs) to the speech domain has recently gained significant attention. A typical approach connects a pretrained LLM with an audio encoder through a projection module and trains the resulting model on large-scale, task-specific instruction-tuning datasets. However, curating such instruction-tuning data for specific requirements is time-consuming, and models trained in this manner often generalize poorly to unseen tasks. In this work, we first formulate that the strongest generalization of a speech-LLM is achieved when it is trained with Self-Generated Instruction-Free Tuning (SIFT), in which supervision signals are generated by a frozen LLM using textual representations of speech as input. Our proposed SIFT paradigm eliminates the need for collecting task-specific question-answer pairs and yields the theoretically best generalization to unseen tasks. Building upon this paradigm, we introduce AZeroS (Auden Zero-instruction-tuned Speech-LLM), which is trained on speech-text pairs derived from publicly available corpora, including approximately 25,000 hours of speech with ASR transcripts and 3,000 hours of speech with paralinguistic labels. Built upon Qwen2.5-7B-Instruct, the model updates only two lightweight projection modules (23.8 million parameters each), while keeping both the LLM and audio encoders frozen. Despite the minimal training cost and modest data scale, AZeroS achieves state-of-the-art performance on both semantic and paralinguistic benchmarks, including VoiceBench, AIR-Bench Foundation (Speech), and AIR-Bench Chat (Speech).
- Abstract(参考訳): 近年,大規模言語モデル(LLM)を音声領域に拡張する試みが注目されている。
典型的なアプローチは、事前訓練されたLCMとプロジェクションモジュールを介してオーディオエンコーダを接続し、その結果モデルを大規模でタスク固有の命令チューニングデータセットでトレーニングする。
しかし、特定の要求に対してそのような命令チューニングデータを計算するのに時間がかかり、このような方法で訓練されたモデルは、しばしば目に見えないタスクによく一般化される。
本研究では,音声のテキスト表現を入力として冷凍LDMにより教師信号を生成するSIFT(Self-Generated Instruction-Free Tuning)を用いて学習した場合に,音声-LLMの最強の一般化が達成されることを示す。
提案したSIFTパラダイムは,タスク固有の問合せペアの収集の必要性を排除し,理論的に最良のタスクの一般化をもたらす。
このパラダイムに基づいて、AZeroS (Auden Zero-Instruction-tuned Speech-LLM) を導入し、ASR文字による約25,000時間、パラ言語ラベルによる約3000時間を含む公用コーパスから発せられる音声テキストペアを訓練する。
Qwen2.5-7B-Instructをベースとして、2つの軽量プロジェクションモジュール(それぞれ2380万のパラメータ)を更新し、LLMとオーディオエンコーダの両方を凍結させたままにした。
AZeroSは、最小のトレーニングコストと控えめなデータスケールにもかかわらず、VoiceBench、AIR-Bench Foundation(Speech)、AIR-Bench Chat(Speech)など、セマンティックとパラ言語両方のベンチマークで最先端のパフォーマンスを実現している。
関連論文リスト
- DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment [94.0709779805955]
DeSTA2.5-Audio, a general-purpose Large Audio Language Model (LALM)について紹介する。
タスク固有の音声命令チューニングを必要とせず、頑健な聴覚知覚と指示追従のために設計されている。
DeSTA2.5-Audioは、幅広いオーディオ言語ベンチマークで最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-03T16:28:25Z) - Metis: A Foundation Speech Generation Model with Masked Generative Pre-training [3.063926257586959]
Metisは統合音声生成の基礎モデルである。
大規模未ラベル音声データに基づいて事前学習を行う。
その後、多様な音声生成タスクに適応するように微調整される。
論文 参考訳(メタデータ) (2025-02-05T12:36:21Z) - SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。