論文の概要: Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond
- arxiv url: http://arxiv.org/abs/2408.03900v1
- Date: Wed, 7 Aug 2024 16:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 12:35:07.572394
- Title: Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond
- Title(参考訳): Speech-MASSIVE:SLUなどのための多言語音声データセット
- Authors: Beomseok Lee, Ioan Calapodescu, Marco Gaido, Matteo Negri, Laurent Besacier,
- Abstract要約: Speech-MASSIVEは多言語音声言語理解データセットである。
異なるファミリーの12の言語をカバーし、インテント予測とスロットフルタスクのためのアノテーションから継承する。
本稿では,音声の書き起こし,言語識別,音声翻訳などのタスクに対して,Speech-MASSIVEの適性を示す。
- 参考スコア(独自算出の注目度): 36.660499609887886
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Speech-MASSIVE, a multilingual Spoken Language Understanding (SLU) dataset comprising the speech counterpart for a portion of the MASSIVE textual corpus. Speech-MASSIVE covers 12 languages from different families and inherits from MASSIVE the annotations for the intent prediction and slot-filling tasks. Our extension is prompted by the scarcity of massively multilingual SLU datasets and the growing need for versatile speech datasets to assess foundation models (LLMs, speech encoders) across languages and tasks. We provide a multimodal, multitask, multilingual dataset and report SLU baselines using both cascaded and end-to-end architectures in various training scenarios (zero-shot, few-shot, and full fine-tune). Furthermore, we demonstrate the suitability of Speech-MASSIVE for benchmarking other tasks such as speech transcription, language identification, and speech translation. The dataset, models, and code are publicly available at: https://github.com/hlt-mt/Speech-MASSIVE
- Abstract(参考訳): 本稿では,多言語音声理解(SLU)データセットであるSpeech-MASSIVEについて述べる。
Speech-MASSIVEは、異なるファミリーの12の言語をカバーし、意図予測とスロットフルタスクのためのアノテーションをMASSIVEから継承する。
我々の拡張は、多言語SLUデータセットの不足と、言語やタスクをまたいだ基礎モデル(LLM、音声エンコーダ)を評価するための多言語音声データセットの必要性の高まりによって引き起こされる。
マルチモーダル、マルチタスク、マルチリンガルデータセットを提供し、さまざまなトレーニングシナリオ(ゼロショット、少数ショット、フルファインチューン)において、カスケードアーキテクチャとエンドツーエンドアーキテクチャの両方を用いて、SLUベースラインをレポートする。
さらに,音声の書き起こし,言語識別,音声翻訳などのタスクをベンチマークするために,Speech-MASSIVEが適していることを示す。
データセット、モデル、コードは、https://github.com/hlt-mt/Speech-MASSIVEで公開されている。
関連論文リスト
- MSLM-S2ST: A Multitask Speech Language Model for Textless Speech-to-Speech Translation with Speaker Style Preservation [45.558316325252335]
マルチタスク音声言語モデル(Multitask Speech Language Model、MSLM)は、マルチタスク設定で訓練されたデコーダのみの音声言語モデルである。
我々のモデルは、話者スタイルを保存した多言語S2STをサポートすることができる。
論文 参考訳(メタデータ) (2024-03-19T03:35:20Z) - Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual
Speech Representation [11.552745999302905]
本稿では,SAMU-XLSRを提案する。
我々は、最先端の多言語フレームレベルの音声表現学習モデルXLS-RとLanguage Agnostic BERT Sentence Embedding (LaBSE)モデルを組み合わせて、発話レベルマルチモーダル音声エンコーダSAMU-XLSRを作成する。
論文 参考訳(メタデータ) (2022-05-17T08:58:48Z) - XTREME-S: Evaluating Cross-lingual Speech Representations [88.78720838743772]
XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。
本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
論文 参考訳(メタデータ) (2022-03-21T06:50:21Z) - Multilingual Speech Translation with Unified Transformer: Huawei Noah's
Ark Lab at IWSLT 2021 [33.876412404781846]
本稿では,Huawei Noah の Ark Lab から IWSLT 2021 Speech Translation (MultiST) タスクに送信されたシステムについて述べる。
我々は、MultiSTモデルに統一トランスフォーマーアーキテクチャを使用し、異なるモダリティからのデータを活用してモデルの能力を高める。
マルチタスク学習やタスクレベルのカリキュラム学習,データ拡張など,パフォーマンス向上のために,いくつかのトレーニング手法を適用した。
論文 参考訳(メタデータ) (2021-06-01T02:50:49Z) - MLS: A Large-Scale Multilingual Dataset for Speech Research [37.803100082550294]
データセットは、LibriVoxの読み出しオーディオブックに由来する。
英語の約44.5K時間と、他の言語で約6K時間を含む8つの言語で構成されている。
論文 参考訳(メタデータ) (2020-12-07T01:53:45Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。