論文の概要: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data
- arxiv url: http://arxiv.org/abs/2409.20007v1
- Date: Mon, 30 Sep 2024 07:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:02:44.906224
- Title: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data
- Title(参考訳): 音声指導調整データのない指示追従音声モデルの開発
- Authors: Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu, Chao-Han Huck Yang, Jagadeesh Balam, Boris Ginsburg, Yu-Chiang Frank Wang, Hung-yi Lee,
- Abstract要約: 最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
- 参考スコア(独自算出の注目度): 84.01401439030265
- License:
- Abstract: Recent end-to-end speech language models (SLMs) have expanded upon the capabilities of large language models (LLMs) by incorporating pre-trained speech models. However, these SLMs often undergo extensive speech instruction-tuning to bridge the gap between speech and text modalities. This requires significant annotation efforts and risks catastrophic forgetting of the original language capabilities. In this work, we present a simple yet effective automatic process for creating speech-text pair data that carefully injects speech paralinguistic understanding abilities into SLMs while preserving the inherent language capabilities of the text-based LLM. Our model demonstrates general capabilities for speech-related tasks without the need for speech instruction-tuning data, achieving impressive performance on Dynamic-SUPERB and AIR-Bench-Chat benchmarks. Furthermore, our model exhibits the ability to follow complex instructions derived from LLMs, such as specific output formatting and chain-of-thought reasoning. Our approach not only enhances the versatility and effectiveness of SLMs but also reduces reliance on extensive annotated datasets, paving the way for more efficient and capable speech understanding systems.
- Abstract(参考訳): 最近のエンドツーエンド言語モデル(SLM)は、事前訓練された音声モデルを導入することで、大規模言語モデル(LLM)の能力を拡大している。
しかし、これらのSLMは、音声とテキストのモダリティのギャップを埋めるために、広範に音声の訓練を行うことが多い。
これは重要なアノテーションの努力を必要とし、元の言語機能の破滅的な忘れ込みを危険にさらしている。
本研究では、テキストベースのLLMの言語能力を維持しつつ、音声パラ言語的理解能力を注意深くSLMに注入する、音声テキストペアデータを作成するための、シンプルで効果的な自動処理を提案する。
提案モデルでは,音声教育データを必要としない音声関連タスクの汎用性を実証し,Dynamic-SUPERB と AIR-Bench-Chat ベンチマークで優れた性能を示す。
さらに,本モデルでは,特定の出力形式やチェーン・オブ・シークレット推論など,LLMから派生した複雑な命令に従う能力を示す。
提案手法は,SLMの汎用性と有効性を向上するだけでなく,広範囲な注釈付きデータセットへの依存を低減し,より効率的かつ有能な音声理解システムを実現する。
関連論文リスト
- DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Scaling Properties of Speech Language Models [4.0142527158949415]
音声言語モデル(SLM)は、テキストリソースを使わずに、生音声から言語を学ぶことを目的としている。
テキストベース大規模言語モデル(LLM)の英語習熟度を用いて,現在の手法がSLMを生成するスケールを推定する。
論文 参考訳(メタデータ) (2024-03-31T13:30:12Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - SALM: Speech-augmented Language Model with In-context Learning for
Speech Recognition and Translation [26.778332992311043]
本稿では,エム・マルチタスクとエム・イン・コンテクスト学習機能を備えた音声拡張言語モデル(SALM)を提案する。
SALMは自動音声認識(ASR)と音声翻訳(AST)のためのタスク固有のコンバータベースラインと同等の性能を達成する
論文 参考訳(メタデータ) (2023-10-13T22:07:33Z) - Instruction-Following Speech Recognition [21.591086644665197]
本稿では,命令追従音声認識を導入し,多様な自由形式のテキスト命令の理解と実行を行うリステン・アテンド・スペルモデルを訓練する。
注目すべきは、我々のモデルは、Librispeechでゼロから訓練され、大規模言語モデルや事前訓練された音声モジュールを必要とせずに、簡単な命令を解釈し、実行します。
論文 参考訳(メタデータ) (2023-09-18T14:59:10Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。