Fugu-MT 論文翻訳(概要): FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech

論文の概要: FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech

arxiv url: http://arxiv.org/abs/2205.12446v1
Date: Wed, 25 May 2022 02:29:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-28 20:36:57.817660
Title: FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech
Title（参考訳）: FLEURS:音声の普遍表現の少ない学習評価
Authors: Alexis Conneau, Min Ma, Simran Khanuja, Yu Zhang, Vera Axelrod, Siddharth Dalmia, Jason Riesa, Clara Rivera, Ankur Bapna
Abstract要約: FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech benchmark)を紹介する。 FLEURSは、機械翻訳FLoRes-101ベンチマーク上に構築された102言語におけるn-way並列音声データセットである。
参考スコア（独自算出の注目度）: 33.71744518887916
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce FLEURS, the Few-shot Learning Evaluation of Universal Representations of Speech benchmark. FLEURS is an n-way parallel speech dataset in 102 languages built on top of the machine translation FLoRes-101 benchmark, with approximately 12 hours of speech supervision per language. FLEURS can be used for a variety of speech tasks, including Automatic Speech Recognition (ASR), Speech Language Identification (Speech LangID), Translation and Retrieval. In this paper, we provide baselines for the tasks based on multilingual pre-trained models like mSLAM. The goal of FLEURS is to enable speech technology in more languages and catalyze research in low-resource speech understanding.
Abstract（参考訳）: FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech benchmark)を紹介する。 FLEURSは、機械翻訳FLoRes-101ベンチマーク上に構築された102言語におけるn-way並列音声データセットである。 FLEURSは、自動音声認識(ASR)、音声言語識別(Speech LangID)、翻訳(Translation)、検索(Retrieval)など、さまざまな音声タスクに使用できる。本稿では,mSLAMのような多言語事前学習モデルに基づくタスクのベースラインを提供する。 FLEURSの目標は、より多くの言語で音声技術を有効にし、低リソース音声理解の研究を促進することである。

関連論文リスト

Zero-AVSR: Zero-Shot Audio-Visual Speech Recognition with LLMs by Learning Language-Agnostic Speech Representations [65.59784436914548]
ローマ語文を予測して言語に依存しない音声表現を学習するAV-Romanizerについて紹介する。予測されたローマ語文を言語固有のグラフエムに変換し、提案したカスケードゼロ-AVSRを形成する。音声・言語多様性の広帯域化を図るため,MARC(Multilingual Audio-Visual Romanized Corpus)も導入した。
論文参考訳（メタデータ） (2025-03-08T16:40:13Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。音声処理タスクを音声単位生成タスクに再構成する。提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文参考訳（メタデータ） (2024-08-23T13:00:10Z)
Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training [29.47243668154796]
BLOOMZMMSは多言語LLMと多言語音声エンコーダを統合する新しいモデルである。本稿では,言語知識のテキストから音声モダリティへの伝達性を示す。ゼロショット評価の結果は、複数のタスクにまたがるアプローチの堅牢性を確認します。
論文参考訳（メタデータ） (2024-04-16T21:45:59Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2023-05-24T07:42:15Z)
Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10～40倍増やす。主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文参考訳（メタデータ） (2023-05-22T22:09:41Z)
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文参考訳（メタデータ） (2023-03-02T07:47:18Z)
SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations [38.058120432870126]
SpeechMatrixは、音声から音声への翻訳の大規模多言語コーパスである。 136言語対の音声アライメントと、合計418万時間の音声を含む。
論文参考訳（メタデータ） (2022-11-08T19:09:27Z)
Multitask Training with Text Data for End-to-End Speech Recognition [45.35605825009208]
本稿では,注目に基づくエンドツーエンド音声認識モデルに対するマルチタスク学習手法を提案する。我々は、音声テキストとテキストのみのデータの両方でマルチタスクでトレーニングすることで、リスニング、アテンション、スペルモデルでデコーダを正規化する。
論文参考訳（メタデータ） (2020-10-27T14:29:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。