論文の概要: COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning
- arxiv url: http://arxiv.org/abs/2311.02248v1
- Date: Fri, 3 Nov 2023 21:47:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 18:46:52.483701
- Title: COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning
- Title(参考訳): COSMIC:音声インテクスト学習のためのデータ効率の良いインストラクションチューニング
- Authors: Jing Pan, Jian Wu, Yashesh Gaur, Sunit Sivasankaran, Zhuo Chen, Shujie
Liu, Jinyu Li
- Abstract要約: 大規模言語モデル(LLM)に音声モダリティを組み込むためのデータと費用効率のよい方法を提案する。
結果として得られるマルチモーダルLLMは、インストラクション・フォロー/イン・コンテクスト・ラーニング機能を備えたCOSMIC(COntextual Speech Model)である。
20M未満のトレーニング可能なパラメータと、SQA生成のための450時間分の英語音声データにより、COSMICは創発的な命令追従および文脈内学習能力を示す。
- 参考スコア(独自算出の注目度): 47.55319096587479
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a data and cost efficient way of incorporating the speech modality
into a large language model (LLM). The resulting multi-modal LLM is a
COntextual Speech Model with Instruction-following/in-context-learning
Capabilities - COSMIC. Speech comprehension test question-answer (SQA) pairs
are generated using GPT-3.5 based on the speech transcriptions as a part of the
supervision for the instruction tuning. With fewer than 20M trainable
parameters and as little as 450 hours of English speech data for SQA
generation, COSMIC exhibits emergent instruction-following and in-context
learning capabilities in speech-to-text tasks. The model is able to follow the
given text instructions to generate text response even on the unseen EN$\to$X
speech-to-text translation (S2TT) task with zero-shot setting. We evaluate the
model's in-context learning via various tasks such as EN$\to$X S2TT and
few-shot domain adaptation. And instruction-following capabilities are
evaluated through a contextual biasing benchmark. Our results demonstrate the
efficacy of the proposed low cost recipe for building a speech LLM and that
with the new instruction-tuning data.
- Abstract(参考訳): 大規模言語モデル(LLM)に音声モダリティを組み込むためのデータと費用効率のよい方法を提案する。
結果として得られたマルチモーダルllmは、インストラクションフォロー/インコンテキスト学習機能を備えたコンテキスト音声モデルである。
命令チューニングの監督の一環として、音声転写に基づいてgpt-3.5を用いて音声理解テスト質問応答(sqa)ペアを生成する。
20M未満のトレーニング可能なパラメータと、SQA生成のための450時間の英語音声データにより、COSMICは、音声からテキストへのタスクにおいて、創発的な命令追従およびテキスト内学習能力を示す。
モデルは与えられたテキスト命令に従って、ゼロショット設定で未確認のEN$\to$X音声テキスト変換(S2TT)タスクでもテキスト応答を生成することができる。
EN$\to$X S2TT や少数ショットドメイン適応など,様々なタスクを通じて,モデルのコンテキスト内学習を評価する。
命令追従能力は文脈バイアスベンチマークによって評価される。
本研究は,LLM構築のための低コストレシピの有効性と,新たな指導訓練データを用いて検証した。
関連論文リスト
- Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and
Context-Aware Visual Speech Processing [61.95652444767649]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
VSP-LLMは15時間のラベル付きデータでより効果的に唇の動きを認識・翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - SALM: Speech-augmented Language Model with In-context Learning for
Speech Recognition and Translation [26.778332992311043]
本稿では,エム・マルチタスクとエム・イン・コンテクスト学習機能を備えた音声拡張言語モデル(SALM)を提案する。
SALMは自動音声認識(ASR)と音声翻訳(AST)のためのタスク固有のコンバータベースラインと同等の性能を達成する
論文 参考訳(メタデータ) (2023-10-13T22:07:33Z) - End-to-End Speech Recognition Contextualization with Large Language
Models [25.198480789044346]
本稿では,Large Language Models (LLM) を取り入れた音声認識モデルの文脈化手法を提案する。
音声機能とコンテクスト用のオプションテキストトークンを提供し、デコーダのみの方法でシステムに書き起こしを訓練する。
実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-09-19T20:28:57Z) - GRASS: Unified Generation Model for Speech-to-Semantic Tasks [7.044414457214718]
本稿では,音声データに対するタスク関連プロンプトに条件付きターゲットテキストを生成する統合エンドツーエンド(E2E)フレームワークを提案する。
提案モデルでは, 実体認識, 音声感情分析, 音声質問応答などを含む多くのベンチマークにおいて, 最先端のSOTA(State-of-the-art)結果が得られた。
音声合成タスクの微調整の今後の取り組みを容易にするため,命令データセットとコードをリリースする。
論文 参考訳(メタデータ) (2023-09-06T06:44:26Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - A General Multi-Task Learning Framework to Leverage Text Data for Speech
to Text Tasks [36.216979991706594]
本稿では,自動音声認識(ASR)と音声翻訳(ST)タスクのためのテキストデータを活用する汎用マルチタスク学習フレームワークを提案する。
テキスト入力を音素シーケンスとして表現することで、音声とテキスト入力の差を減らし、テキストコーパスからテキストタスクへの知識伝達を促進できることを示す。
論文 参考訳(メタデータ) (2020-10-21T22:40:43Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。