Fugu-MT 論文翻訳(概要): ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets

論文の概要: ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets

arxiv url: http://arxiv.org/abs/2406.08641v1
Date: Wed, 12 Jun 2024 21:01:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 22:07:36.908110
Title: ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets
Title（参考訳）: ML-SUPERB 2.0:制約、言語、データセットをモデル化する多言語音声モデルのベンチマーク
Authors: Jiatong Shi, Shih-Heng Wang, William Chen, Martijn Bartelds, Vanya Bannihatti Kumar, Jinchuan Tian, Xuankai Chang, Dan Jurafsky, Karen Livescu, Hung-yi Lee, Shinji Watanabe,
Abstract要約: 本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
参考スコア（独自算出の注目度）: 106.7760874400261
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: ML-SUPERB evaluates self-supervised learning (SSL) models on the tasks of language identification and automatic speech recognition (ASR). This benchmark treats the models as feature extractors and uses a single shallow downstream model, which can be fine-tuned for a downstream task. However, real-world use cases may require different configurations. This paper presents ML-SUPERB~2.0, which is a new benchmark for evaluating pre-trained SSL and supervised speech models across downstream models, fine-tuning setups, and efficient model adaptation approaches. We find performance improvements over the setup of ML-SUPERB. However, performance depends on the downstream model design. Also, we find large performance differences between languages and datasets, suggesting the need for more targeted approaches to improve multilingual ASR performance.
Abstract（参考訳）: ML-SUPERBは、言語識別と自動音声認識(ASR)のタスクにおいて、自己教師付き学習(SSL)モデルを評価する。このベンチマークでは、モデルを特徴抽出器として扱い、1つの浅い下流モデルを使用し、下流タスクのために微調整することができる。しかし、現実世界のユースケースは異なる構成を必要とするかもしれない。本稿では、ダウンストリームモデル、微調整設定、効率的なモデル適応アプローチを含む、訓練済みSSLおよび教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB~2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上した。しかし、性能は下流モデル設計に依存します。また,言語とデータセット間の性能差が大きく,多言語ASRの性能向上に向け,より標的としたアプローチの必要性が示唆された。

関連論文リスト

The Impact of Model Scaling on Seen and Unseen Language Performance [2.012425476229879]
本研究では204言語にわたる多言語大言語モデルの性能とスケーリングの挙動について検討する。その結果,ゼロショットシナリオと2ショットシナリオのスケーリング挙動に有意な差が認められた。 2ショット設定では、より大きなモデルは多言語テキスト分類において明確な線形改善を示す。
論文参考訳（メタデータ） (2025-01-10T00:10:21Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。 Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文参考訳（メタデータ） (2024-07-04T15:14:17Z)
MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models [7.321459642283822]
ファインチューニングは、膨大なリソースと計算を必要とせずに、言語モデルの性能を向上させることができる。 LLama-2-7B モデルと Mistral-7B モデルを2つの合成多言語命令チューニングデータセット上で微調整し、モデル性能に与える影響を判定する。小型のオープンソースモデルのPEFTは、これらのモデルとより大きなモデルの間のギャップを埋めることがあるが、英語のパフォーマンスは打撃を受ける可能性がある。
論文参考訳（メタデータ） (2024-01-15T11:06:43Z)
On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文参考訳（メタデータ） (2023-11-14T00:43:33Z)
ML-SUPERB: Multilingual Speech Universal PERformance Benchmark [73.65853301350042]
音声処理Universal PERformance Benchmark (SUPERB) は、音声処理タスクにおける自己監督学習(SSL)モデルの性能をベンチマークするためのリーダーボードである。本稿では,言語認識と言語識別の両方を考慮した多言語SUPERBを提案する。 SUPERBベンチマークと同様、音声SSLモデルはFBANKよりも性能が大幅に向上する。
論文参考訳（メタデータ） (2023-05-18T00:01:27Z)
Contrastive Alignment of Vision to Language Through Parameter-Efficient Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文参考訳（メタデータ） (2023-03-21T14:12:08Z)
Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文参考訳（メタデータ） (2023-02-24T18:59:51Z)
Analyzing Bagging Methods for Language Models [0.5161531917413708]
我々は,バッジ言語モデルの解析を行い,単一言語モデルと最終モデルサイズで大まかに等価なタグ付きアンサンブルを比較した。我々のアンサンブル法は、少なくとも1つのLMベースラインとほぼ同等である。
論文参考訳（メタデータ） (2022-07-19T06:30:37Z)
PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文参考訳（メタデータ） (2022-04-05T16:11:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。