Fugu-MT 論文翻訳(概要): LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech

論文の概要: LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech

arxiv url: http://arxiv.org/abs/2309.05472v1
Date: Mon, 11 Sep 2023 14:13:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 12:28:16.504089
Title: LeBenchmark 2.0: a Standardized, Replicable and Enhanced Framework for Self-supervised Representations of French Speech
Title（参考訳）: LeBenchmark 2.0: フランス語の自己教師型表現のための標準化され、再現可能で拡張されたフレームワーク
Authors: Titouan Parcollet, Ha Nguyen, Solene Evain, Marcely Zanon Boito, Adrien Pupier, Salima Mdhaffar, Hang Le, Sina Alisamir, Natalia Tomashenko, Marco Dinarelli, Shucong Zhang, Alexandre Allauzen, Maximin Coavoux, Yannick Esteve, Mickael Rouvier, Jerome Goulian, Benjamin Lecouteux, Francois Portet, Solange Rossato, Fabien Ringeval, Didier Schwab, Laurent Besacier
Abstract要約: この研究は、SSL対応のフランス語音声技術の評価と構築のためのオープンソースのフレームワークであるLeBenchmark 2.0を紹介している。これには、最大14,000時間のヘテロジニアススピーチを含む文書化、大規模で異質なコーパス、600万から10億の学習可能なパラメータを含む10のトレーニング済みSSL wav2vec 2.0モデル、下流の6つのタスクからなる評価プロトコルが含まれる。
参考スコア（独自算出の注目度）: 71.20037500672646
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-supervised learning (SSL) is at the origin of unprecedented improvements in many different domains including computer vision and natural language processing. Speech processing drastically benefitted from SSL as most of the current domain-related tasks are now being approached with pre-trained models. This work introduces LeBenchmark 2.0 an open-source framework for assessing and building SSL-equipped French speech technologies. It includes documented, large-scale and heterogeneous corpora with up to 14,000 hours of heterogeneous speech, ten pre-trained SSL wav2vec 2.0 models containing from 26 million to one billion learnable parameters shared with the community, and an evaluation protocol made of six downstream tasks to complement existing benchmarks. LeBenchmark 2.0 also presents unique perspectives on pre-trained SSL models for speech with the investigation of frozen versus fine-tuned downstream models, task-agnostic versus task-specific pre-trained models as well as a discussion on the carbon footprint of large-scale model training.
Abstract（参考訳）: 自己教師付き学習(SSL)は、コンピュータビジョンや自然言語処理など、多くの異なる領域において前例のない改善がなされている。現在のドメイン関連のタスクのほとんどは、事前トレーニングされたモデルでアプローチされているため、音声処理はSSLから大幅に恩恵を受けている。 SSL対応のフランス語音声技術の評価と構築のためのオープンソースのフレームワークであるLeBenchmark 2.0を紹介する。最大14,000時間のヘテロジニアス音声を持つ文書化、大規模、異種コーパス、コミュニティと共有される2600万から10億の学習可能なパラメータを含むssl wav2vec 2.0モデルの10モデル、既存のベンチマークを補完する6つの下流タスクによる評価プロトコルが含まれている。 LeBenchmark 2.0はまた、凍結した下流モデルと微調整された下流モデル、タスクに依存しないモデルとタスク固有の事前訓練モデル、および大規模モデルトレーニングの炭素フットプリントに関する議論を含む、スピーチのための事前訓練されたSSLモデルに関するユニークな視点を提示する。

関連論文リスト

Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文参考訳（メタデータ） (2024-06-30T21:40:26Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
Benchmarking Pre-trained Large Language Models' Potential Across Urdu NLP tasks [0.9786690381850356]
多言語データで事前訓練されたLarge Language Models (LLMs)は、自然言語処理の研究に革命をもたらした。本研究では,15のUrduデータセットを用いて,14のタスクにまたがる顕著なLLMの詳細な検討を行った。実験の結果、SOTAモデルはゼロショット学習を伴う全てのUrdu NLPタスクにおいて、エンコーダ-デコーダ事前訓練された言語モデルを上回ることがわかった。
論文参考訳（メタデータ） (2024-05-24T11:30:37Z)
YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文参考訳（メタデータ） (2023-12-22T17:34:47Z)
Joint Prediction and Denoising for Large-scale Multilingual Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文参考訳（メタデータ） (2023-09-26T23:55:57Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale [48.0390317915984]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。 128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文参考訳（メタデータ） (2021-11-17T18:49:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。