論文の概要: Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation
over More Languages and Beyond
- arxiv url: http://arxiv.org/abs/2310.05513v1
- Date: Mon, 9 Oct 2023 08:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 06:49:25.039324
- Title: Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation
over More Languages and Beyond
- Title(参考訳): 2023年ML-SUPERBチャレンジの発見: より多くの言語に対する事前学習と評価
- Authors: Jiatong Shi, William Chen, Dan Berrebbi, Hsiu-Hsuan Wang, Wei-Ping
Huang, En-Pei Hu, Ho-Lam Chuang, Xuankai Chang, Yuxun Tang, Shang-Wen Li,
Abdelrahman Mohamed, Hung-yi Lee, Shinji Watanabe
- Abstract要約: 2023年のMultilingual Speech Universal Performance Benchmark (ML-SUPERB) Challengeは、宣言されたSUPERBフレームワークに拡張される。
この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。
この結果は、単にスケーリングモデルが多言語音声タスクにおける決定的な解決策ではないことを示唆している。
- 参考スコア(独自算出の注目度): 89.54151859266202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The 2023 Multilingual Speech Universal Performance Benchmark (ML-SUPERB)
Challenge expands upon the acclaimed SUPERB framework, emphasizing
self-supervised models in multilingual speech recognition and language
identification. The challenge comprises a research track focused on applying
ML-SUPERB to specific multilingual subjects, a Challenge Track for model
submissions, and a New Language Track where language resource researchers can
contribute and evaluate their low-resource language data in the context of the
latest progress in multilingual speech recognition. The challenge garnered 12
model submissions and 54 language corpora, resulting in a comprehensive
benchmark encompassing 154 languages. The findings indicate that merely scaling
models is not the definitive solution for multilingual speech tasks, and a
variety of speech/voice types present significant challenges in multilingual
speech processing.
- Abstract(参考訳): 2023年の多言語音声ユニバーサルパフォーマンスベンチマーク(ML-SUPERB)チャレンジは、多言語音声認識と言語識別における自己教師付きモデルを強調し、評価されたSUPERBフレームワークを拡張している。
この課題は、ML-SUPERBを特定の多言語対象に適用することに焦点を当てた研究トラック、モデル提出のためのチャレンジトラック、および言語資源研究者が最新の多言語音声認識の進歩の文脈において、低リソース言語データをコントリビュートし評価できる新しい言語トラックを含む。
この挑戦は12のモデル提出と54の言語コーパスを集め、154の言語を含む包括的なベンチマークをもたらした。
この結果から,多言語音声処理において,単にスケーリングモデルが決定的な解決法ではないことが示唆された。
関連論文リスト
- The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models [18.399229357408043]
多言語推論は言語間の論理的推論を扱うために言語モデルを必要とする。
この調査は、言語モデルにおける多言語推論に関する、最初の詳細なレビューを提供する。
論文 参考訳(メタデータ) (2025-02-13T16:25:16Z) - Advancing Singlish Understanding: Bridging the Gap with Datasets and Multimodal Models [38.608158064184366]
我々は、MNSC(Multitask National Speech Corpus)を導入し、最大のSinglishコーパスを標準化し、注釈する。
これらのデータセットは、自動音声認識(ASR)、音声質問回答(SQA)、音声対話要約(SDS)、パラ言語質問回答(PQA)など様々なタスクをサポートする。
本稿ではマルチタスクマルチモーダルモデルであるSingAudioLLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T03:28:52Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training [29.47243668154796]
BLOOMZMMSは多言語LLMと多言語音声エンコーダを統合する新しいモデルである。
本稿では,言語知識のテキストから音声モダリティへの伝達性を示す。
ゼロショット評価の結果は、複数のタスクにまたがるアプローチの堅牢性を確認します。
論文 参考訳(メタデータ) (2024-04-16T21:45:59Z) - Multilingual Text Representation [3.4447129363520337]
現代のNLPのブレークスルーには、100以上の言語でタスクを実行できる大規模な多言語モデルが含まれている。
最先端の言語モデルは、単語の単純な1ホット表現から始まり、長い道のりを歩んだ。
我々は、言語民主化の潜在能力が、既知の限界を超えてどのように得られるかについて論じる。
論文 参考訳(メタデータ) (2023-09-02T14:21:22Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - Multilingual Byte2Speech Text-To-Speech Models Are Few-shot Spoken
Language Learners [11.190877290770047]
本稿では、バイト入力をスペクトログラムにマッピングし、任意の入力スクリプトを可能にする多言語用エンドツーエンドテキスト合成フレームワークを提案する。
このフレームワークは、極端に低リソースのシナリオ下で、様々な新しい言語に適応する能力を示す。
多言語モデルのメカニズムをよりよく理解するために,言語固有のサブネットワークを抽出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T08:41:45Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。