Fugu-MT 論文翻訳(概要): ML-SUPERB: Multilingual Speech Universal PERformance Benchmark

論文の概要: ML-SUPERB: Multilingual Speech Universal PERformance Benchmark

arxiv url: http://arxiv.org/abs/2305.10615v1
Date: Thu, 18 May 2023 00:01:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 17:38:14.503227
Title: ML-SUPERB: Multilingual Speech Universal PERformance Benchmark
Title（参考訳）: ML-SUPERB:多言語音声ユニバーサルパフォーマンスベンチマーク
Authors: Jiatong Shi, Dan Berrebbi, William Chen, Ho-Lam Chung, En-Pei Hu, Wei Ping Huang, Xuankai Chang, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Shinji Watanabe
Abstract要約: 音声処理Universal PERformance Benchmark (SUPERB) は、音声処理タスクにおける自己監督学習(SSL)モデルの性能をベンチマークするためのリーダーボードである。本稿では,言語認識と言語識別の両方を考慮した多言語SUPERBを提案する。 SUPERBベンチマークと同様、音声SSLモデルはFBANKよりも性能が大幅に向上する。
参考スコア（独自算出の注目度）: 73.65853301350042
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech processing Universal PERformance Benchmark (SUPERB) is a leaderboard to benchmark the performance of Self-Supervised Learning (SSL) models on various speech processing tasks. However, SUPERB largely considers English speech in its evaluation. This paper presents multilingual SUPERB (ML-SUPERB), covering 143 languages (ranging from high-resource to endangered), and considering both automatic speech recognition and language identification. Following the concept of SUPERB, ML-SUPERB utilizes frozen SSL features and employs a simple framework for multilingual tasks by learning a shallow downstream model. Similar to the SUPERB benchmark, we find speech SSL models can significantly improve performance compared to FBANK features. Furthermore, we find that multilingual models do not always perform better than their monolingual counterparts. We will release ML-SUPERB as a challenge with organized datasets and reproducible training scripts for future multilingual representation research.
Abstract（参考訳）: 音声処理Universal PERformance Benchmark (SUPERB) は、音声処理タスクにおける自己監督学習(SSL)モデルの性能をベンチマークするためのリーダーボードである。しかし、SUPERBはその評価において主に英語を話す。本稿では,143言語をカバーする多言語スーパーブ(ml-superb)について述べる。 SUPERBのコンセプトに従って、ML-SUPERBは凍結SSL機能を使用し、浅い下流モデルを学ぶことで、多言語タスクのためのシンプルなフレームワークを使用する。 superbベンチマークと同様に、音声sslモデルはfbankの機能よりもパフォーマンスが大幅に向上する。さらに,多言語モデルが必ずしも単言語モデルよりも優れた性能を発揮するとは限らない。 ML-SUPERBは、将来の多言語表現研究のための組織化されたデータセットと再現可能なトレーニングスクリプトの課題としてリリースする。

関連論文リスト

Multilingual Definition Modeling [1.9409995498330783]
私たちは4つの新言語(スペイン語、フランス語、ポルトガル語、ドイツ語)に単言語辞書データを使用します。このデータに微調整を施すと, 単文単語の定義モデル上で, 事前学習した多言語言語モデルの性能を検証した。結果から,多言語モデルでは英語のオンペア化が可能であるが,言語間相乗効果の可能性が示唆された。
論文参考訳（メタデータ） (2025-06-02T09:48:37Z)
M-Prometheus: A Suite of Open Multilingual LLM Judges [64.22940792713713]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。 M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文参考訳（メタデータ） (2025-04-07T11:37:26Z)
Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文参考訳（メタデータ） (2024-12-24T17:37:11Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文参考訳（メタデータ） (2023-11-02T08:37:30Z)
The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文参考訳（メタデータ） (2023-05-16T17:53:03Z)
Generalizing Multimodal Pre-training into Multilingual via Language Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-29T08:53:22Z)
SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。 SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文参考訳（メタデータ） (2021-05-03T17:51:09Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)
Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3～4%の性能評価を行った。
論文参考訳（メタデータ） (2020-04-09T01:03:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。