論文の概要: SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning
- arxiv url: http://arxiv.org/abs/2504.09081v2
- Date: Thu, 17 Apr 2025 17:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 10:52:40.473176
- Title: SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning
- Title(参考訳): SIFT-50M:音声指導ファインチューニングのための大規模多言語データセット
- Authors: Prabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz,
- Abstract要約: 音声テキスト大言語モデル(LLM)の微調整と事前学習のための50MサンプルデータセットであるSIFT(Speech Instruction Fine-Tuning)を紹介する。
SIFT-50Mは14K時間に及ぶ音声コーパスから構築されている。
データセットは5つの言語にまたがっており、多様な音声理解と制御可能な音声生成命令を含んでいる。
- 参考スコア(独自算出の注目度): 9.326701343224723
- License:
- Abstract: We introduce SIFT (Speech Instruction Fine-Tuning), a 50M-example dataset designed for instruction fine-tuning and pre-training of speech-text large language models (LLMs). SIFT-50M is built from publicly available speech corpora, which collectively contain 14K hours of speech, and leverages LLMs along with off-the-shelf expert models. The dataset spans five languages, encompassing a diverse range of speech understanding as well as controllable speech generation instructions. Using SIFT-50M, we train SIFT-LLM, which outperforms existing speech-text LLMs on instruction-following benchmarks while achieving competitive performance on foundational speech tasks. To support further research, we also introduce EvalSIFT, a benchmark dataset specifically designed to evaluate the instruction-following capabilities of speech-text LLMs.
- Abstract(参考訳): 音声テキスト大言語モデル(LLM)の微調整と事前学習のための50MサンプルデータセットであるSIFT(Speech Instruction Fine-Tuning)を紹介する。
SIFT-50Mは14K時間の音声を含む公開音声コーパスから構築され、市販のエキスパートモデルとともにLLMを利用する。
データセットは5つの言語にまたがっており、多様な音声理解と制御可能な音声生成命令を含んでいる。
SIFT-50Mを用いてSIFT-LLMを訓練し、命令追従ベンチマークにおいて既存の音声テキストLLMよりも優れ、基礎的音声タスクにおける競合性能を実現している。
さらなる研究を支援するために,音声テキストLLMの指示追従能力を評価するためのベンチマークデータセットであるEvalSIFTを導入する。
関連論文リスト
- Get Large Language Models Ready to Speak: A Late-fusion Approach for Speech Generation [14.746190461312036]
大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらした。
そこで本稿では,TTS-Llamaモデルを用いたテキスト音声合成(TTS)システムを提案する。
さらに,テキストと音声によるマルチモーダルLLMであるMoLE-Llamaを提案する。
論文 参考訳(メタデータ) (2024-10-27T04:28:57Z) - Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback [61.23008372927665]
我々はLLaMAとBLOOMの多言語機能を100言語に拡張するxLLMs-100を紹介する。
5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。
論文 参考訳(メタデータ) (2024-06-03T20:25:12Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning [45.282468928830056]
大規模言語モデル(LLM)に音声を統合するコスト効率のよい手法を提案する。
教師あり指導のための音声書き起こしから音声テスト質問応答(SQA)ペアを生成する。
3000万以上のトレーニング可能なパラメータで、COSMICは命令追従およびコンテキスト内学習の新たな能力を示す。
論文 参考訳(メタデータ) (2023-11-03T21:47:03Z) - FLEURS: Few-shot Learning Evaluation of Universal Representations of
Speech [33.71744518887916]
FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech benchmark)を紹介する。
FLEURSは、機械翻訳FLoRes-101ベンチマーク上に構築された102言語におけるn-way並列音声データセットである。
論文 参考訳(メタデータ) (2022-05-25T02:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。