論文の概要: COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning
- arxiv url: http://arxiv.org/abs/2311.02248v1
- Date: Fri, 3 Nov 2023 21:47:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 18:46:52.483701
- Title: COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning
- Title(参考訳): COSMIC:音声インテクスト学習のためのデータ効率の良いインストラクションチューニング
- Authors: Jing Pan, Jian Wu, Yashesh Gaur, Sunit Sivasankaran, Zhuo Chen, Shujie
Liu, Jinyu Li
- Abstract要約: 大規模言語モデル(LLM)に音声モダリティを組み込むためのデータと費用効率のよい方法を提案する。
結果として得られるマルチモーダルLLMは、インストラクション・フォロー/イン・コンテクスト・ラーニング機能を備えたCOSMIC(COntextual Speech Model)である。
20M未満のトレーニング可能なパラメータと、SQA生成のための450時間分の英語音声データにより、COSMICは創発的な命令追従および文脈内学習能力を示す。
- 参考スコア(独自算出の注目度): 47.55319096587479
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a data and cost efficient way of incorporating the speech modality
into a large language model (LLM). The resulting multi-modal LLM is a
COntextual Speech Model with Instruction-following/in-context-learning
Capabilities - COSMIC. Speech comprehension test question-answer (SQA) pairs
are generated using GPT-3.5 based on the speech transcriptions as a part of the
supervision for the instruction tuning. With fewer than 20M trainable
parameters and as little as 450 hours of English speech data for SQA
generation, COSMIC exhibits emergent instruction-following and in-context
learning capabilities in speech-to-text tasks. The model is able to follow the
given text instructions to generate text response even on the unseen EN$\to$X
speech-to-text translation (S2TT) task with zero-shot setting. We evaluate the
model's in-context learning via various tasks such as EN$\to$X S2TT and
few-shot domain adaptation. And instruction-following capabilities are
evaluated through a contextual biasing benchmark. Our results demonstrate the
efficacy of the proposed low cost recipe for building a speech LLM and that
with the new instruction-tuning data.
- Abstract(参考訳): 大規模言語モデル(LLM)に音声モダリティを組み込むためのデータと費用効率のよい方法を提案する。
結果として得られたマルチモーダルllmは、インストラクションフォロー/インコンテキスト学習機能を備えたコンテキスト音声モデルである。
命令チューニングの監督の一環として、音声転写に基づいてgpt-3.5を用いて音声理解テスト質問応答(sqa)ペアを生成する。
20M未満のトレーニング可能なパラメータと、SQA生成のための450時間の英語音声データにより、COSMICは、音声からテキストへのタスクにおいて、創発的な命令追従およびテキスト内学習能力を示す。
モデルは与えられたテキスト命令に従って、ゼロショット設定で未確認のEN$\to$X音声テキスト変換(S2TT)タスクでもテキスト応答を生成することができる。
EN$\to$X S2TT や少数ショットドメイン適応など,様々なタスクを通じて,モデルのコンテキスト内学習を評価する。
命令追従能力は文脈バイアスベンチマークによって評価される。
本研究は,LLM構築のための低コストレシピの有効性と,新たな指導訓練データを用いて検証した。
関連論文リスト
- Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - End-to-End Speech Recognition Contextualization with Large Language
Models [25.198480789044346]
本稿では,Large Language Models (LLM) を取り入れた音声認識モデルの文脈化手法を提案する。
音声機能とコンテクスト用のオプションテキストトークンを提供し、デコーダのみの方法でシステムに書き起こしを訓練する。
実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-09-19T20:28:57Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - FLEURS: Few-shot Learning Evaluation of Universal Representations of
Speech [33.71744518887916]
FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech benchmark)を紹介する。
FLEURSは、機械翻訳FLoRes-101ベンチマーク上に構築された102言語におけるn-way並列音声データセットである。
論文 参考訳(メタデータ) (2022-05-25T02:29:03Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。