Fugu-MT 論文翻訳(概要): COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning

論文の概要: COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning

arxiv url: http://arxiv.org/abs/2311.02248v1
Date: Fri, 3 Nov 2023 21:47:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 18:46:52.483701
Title: COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning
Title（参考訳）: COSMIC:音声インテクスト学習のためのデータ効率の良いインストラクションチューニング
Authors: Jing Pan, Jian Wu, Yashesh Gaur, Sunit Sivasankaran, Zhuo Chen, Shujie Liu, Jinyu Li
Abstract要約: 大規模言語モデル(LLM)に音声モダリティを組み込むためのデータと費用効率のよい方法を提案する。結果として得られるマルチモーダルLLMは、インストラクション・フォロー/イン・コンテクスト・ラーニング機能を備えたCOSMIC(COntextual Speech Model)である。 20M未満のトレーニング可能なパラメータと、SQA生成のための450時間分の英語音声データにより、COSMICは創発的な命令追従および文脈内学習能力を示す。
参考スコア（独自算出の注目度）: 47.55319096587479
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present a data and cost efficient way of incorporating the speech modality into a large language model (LLM). The resulting multi-modal LLM is a COntextual Speech Model with Instruction-following/in-context-learning Capabilities - COSMIC. Speech comprehension test question-answer (SQA) pairs are generated using GPT-3.5 based on the speech transcriptions as a part of the supervision for the instruction tuning. With fewer than 20M trainable parameters and as little as 450 hours of English speech data for SQA generation, COSMIC exhibits emergent instruction-following and in-context learning capabilities in speech-to-text tasks. The model is able to follow the given text instructions to generate text response even on the unseen EN$\to$X speech-to-text translation (S2TT) task with zero-shot setting. We evaluate the model's in-context learning via various tasks such as EN$\to$X S2TT and few-shot domain adaptation. And instruction-following capabilities are evaluated through a contextual biasing benchmark. Our results demonstrate the efficacy of the proposed low cost recipe for building a speech LLM and that with the new instruction-tuning data.
Abstract（参考訳）: 大規模言語モデル(LLM)に音声モダリティを組み込むためのデータと費用効率のよい方法を提案する。結果として得られたマルチモーダルllmは、インストラクションフォロー/インコンテキスト学習機能を備えたコンテキスト音声モデルである。命令チューニングの監督の一環として、音声転写に基づいてgpt-3.5を用いて音声理解テスト質問応答(sqa)ペアを生成する。 20M未満のトレーニング可能なパラメータと、SQA生成のための450時間の英語音声データにより、COSMICは、音声からテキストへのタスクにおいて、創発的な命令追従およびテキスト内学習能力を示す。モデルは与えられたテキスト命令に従って、ゼロショット設定で未確認のEN$\to$X音声テキスト変換(S2TT)タスクでもテキスト応答を生成することができる。 EN$\to$X S2TT や少数ショットドメイン適応など,様々なタスクを通じて,モデルのコンテキスト内学習を評価する。命令追従能力は文脈バイアスベンチマークによって評価される。本研究は,LLM構築のための低コストレシピの有効性と,新たな指導訓練データを用いて検証した。

関連論文リスト

Assessing the feasibility of Large Language Models for detecting micro-behaviors in team interactions during space missions [3.489421154004978]
本研究では,宇宙飛行中に収集したテキストを用いて,チーム会話における微小行動の微妙な表現を検出するための大規模言語モデル(LLM)の実現可能性について検討する。具体的には、エンコーダのみのシーケンス分類LLMとデコーダのみの因果言語モデリングLLMを用いた少数ショットテキスト生成を用いて、ゼロショット分類、微調整、パラフレーズ拡張細調整について検討する。以上の結果から,RoBERTa や DistilBERT などのエンコーダのみの LLM は,微調整を重み付けしても,低表現のマイクロ行動,特に抑止音声の検出に苦慮していたことが示唆された。
論文参考訳（メタデータ） (2025-06-27T23:06:24Z)
Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文参考訳（メタデータ） (2025-02-26T17:26:36Z)
Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文参考訳（メタデータ） (2024-10-04T04:34:24Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。音声処理タスクを音声単位生成タスクに再構成する。提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文参考訳（メタデータ） (2024-08-23T13:00:10Z)
End-to-End Speech Recognition Contextualization with Large Language Models [25.198480789044346]
本稿では,Large Language Models (LLM) を取り入れた音声認識モデルの文脈化手法を提案する。音声機能とコンテクスト用のオプションテキストトークンを提供し、デコーダのみの方法でシステムに書き起こしを訓練する。実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
論文参考訳（メタデータ） (2023-09-19T20:28:57Z)
KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文参考訳（メタデータ） (2023-06-08T16:13:20Z)
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2023-05-24T07:42:15Z)
FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech [33.71744518887916]
FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech benchmark)を紹介する。 FLEURSは、機械翻訳FLoRes-101ベンチマーク上に構築された102言語におけるn-way並列音声データセットである。
論文参考訳（メタデータ） (2022-05-25T02:29:03Z)
SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文参考訳（メタデータ） (2021-10-20T00:59:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。