論文の概要: XTREME-S: Evaluating Cross-lingual Speech Representations
- arxiv url: http://arxiv.org/abs/2203.10752v2
- Date: Tue, 22 Mar 2022 10:10:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 11:10:53.036726
- Title: XTREME-S: Evaluating Cross-lingual Speech Representations
- Title(参考訳): XTREME-S: 言語間音声表現の評価
- Authors: Alexis Conneau, Ankur Bapna, Yu Zhang, Min Ma, Patrick von Platen,
Anton Lozhkov, Colin Cherry, Ye Jia, Clara Rivera, Mihir Kale, Daan Van Esch,
Vera Axelrod, Simran Khanuja, Jonathan H. Clark, Orhan Firat, Michael Auli,
Sebastian Ruder, Jason Riesa, Melvin Johnson
- Abstract要約: XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。
本稿では,新しいベンチマークについて述べるとともに,音声のみのベースラインと音声テキストのベースラインを確立する。
- 参考スコア(独自算出の注目度): 88.78720838743772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce XTREME-S, a new benchmark to evaluate universal cross-lingual
speech representations in many languages. XTREME-S covers four task families:
speech recognition, classification, speech-to-text translation and retrieval.
Covering 102 languages from 10+ language families, 3 different domains and 4
task families, XTREME-S aims to simplify multilingual speech representation
evaluation, as well as catalyze research in "universal" speech representation
learning. This paper describes the new benchmark and establishes the first
speech-only and speech-text baselines using XLS-R and mSLAM on all downstream
tasks. We motivate the design choices and detail how to use the benchmark.
Datasets and fine-tuning scripts are made easily accessible at
https://hf.co/datasets/google/xtreme_s.
- Abstract(参考訳): XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。
XTREME-Sは、音声認識、分類、音声からテキストへの翻訳、検索の4つのタスクファミリーをカバーする。
XTREME-Sは,10以上の言語ファミリー,3つの異なるドメイン,4つのタスクファミリーから102言語をカバーし,多言語言語表現の評価を簡素化するとともに,"普遍的"言語表現学習における研究を触媒することを目的としている。
本稿では,新しいベンチマークについて述べるとともに,xls-r と mslam を用いた最初の音声のみベースラインと音声テキストベースラインを確立する。
デザインの選択を動機付け、ベンチマークの使い方を詳しく説明します。
データセットと微調整スクリプトはhttps://hf.co/datasets/google/xtreme_sで簡単にアクセスできる。
関連論文リスト
- Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond [36.660499609887886]
Speech-MASSIVEは多言語音声言語理解データセットである。
異なるファミリーの12の言語をカバーし、インテント予測とスロットフルタスクのためのアノテーションから継承する。
本稿では,音声の書き起こし,言語識別,音声翻訳などのタスクに対して,Speech-MASSIVEの適性を示す。
論文 参考訳(メタデータ) (2024-08-07T16:55:28Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - SAMU-XLSR: Semantically-Aligned Multimodal Utterance-level Cross-Lingual
Speech Representation [11.552745999302905]
本稿では,SAMU-XLSRを提案する。
我々は、最先端の多言語フレームレベルの音声表現学習モデルXLS-RとLanguage Agnostic BERT Sentence Embedding (LaBSE)モデルを組み合わせて、発話レベルマルチモーダル音声エンコーダSAMU-XLSRを作成する。
論文 参考訳(メタデータ) (2022-05-17T08:58:48Z) - XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.80733419450225]
本稿では,言語間移動学習の現状を解析する。
XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
論文 参考訳(メタデータ) (2021-04-15T12:26:12Z) - The Zero Resource Speech Benchmark 2021: Metrics and baselines for
unsupervised spoken language modeling [23.517751578968344]
ラベルのない生音声信号から言語表現を学習する。
自己教師型コントラスト表現学習(CPC)、クラスタリング(k-means)、言語モデリング(LSTMまたはBERT)による合成ベースラインの結果と解析について述べる。
この単純なパイプラインは、4つのメトリクスすべてに対して偶然のパフォーマンスよりも優れており、生の音声による音声言語モデリングの可能性を示している。
論文 参考訳(メタデータ) (2020-11-23T18:01:37Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。