論文の概要: Open Universal Arabic ASR Leaderboard
- arxiv url: http://arxiv.org/abs/2412.13788v1
- Date: Wed, 18 Dec 2024 12:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:24:44.866860
- Title: Open Universal Arabic ASR Leaderboard
- Title(参考訳): Open Universal Arabic ASR Leaderboard
- Authors: Yingzhi Wang, Anas Alhmoud, Muhammad Alqurishi,
- Abstract要約: オープンユニバーサル アラビア ASR Leaderboard をオープンソース アラビア ASR モデルのための連続ベンチマークプロジェクトとして紹介する。
また,モデルのロバスト性,話者適応性,推論効率,メモリ消費を包括的に分析する。
- 参考スコア(独自算出の注目度): 0.12679500175052566
- License:
- Abstract: In recent years, the enhanced capabilities of ASR models and the emergence of multi-dialect datasets have increasingly pushed Arabic ASR model development toward an all-dialect-in-one direction. This trend highlights the need for benchmarking studies that evaluate model performance on multiple dialects, providing the community with insights into models' generalization capabilities. In this paper, we introduce Open Universal Arabic ASR Leaderboard, a continuous benchmark project for open-source general Arabic ASR models across various multi-dialect datasets. We also provide a comprehensive analysis of the model's robustness, speaker adaptation, inference efficiency, and memory consumption. This work aims to offer the Arabic ASR community a reference for models' general performance and also establish a common evaluation framework for multi-dialectal Arabic ASR models.
- Abstract(参考訳): 近年,ASRモデルの高機能化や多言語データセットの出現により,アラビア語によるASRモデルの開発が一方向に向かって進んでいる。
この傾向は、複数の方言におけるモデルパフォーマンスを評価するベンチマーク研究の必要性を強調し、モデルの一般化能力に関する洞察をコミュニティに提供する。
本稿では,様々な多言語データセットを対象としたオープンソースの一般アラビアASRモデルのための連続ベンチマークプロジェクトであるOpen Universal Arabic ASR Leaderboardを紹介する。
また,モデルのロバスト性,話者適応性,推論効率,メモリ消費を総合的に分析する。
この研究は、アラビアASRコミュニティにモデルの一般的なパフォーマンスへの参照を提供することと、多言語アラビアASRモデルの共通評価フレームワークを確立することを目的としている。
関連論文リスト
- Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark [54.93461228053298]
6つの公開データセットと12のベンチマークモデルと、トレーニングと評価パイプラインで構成されるベンチマークである textbfScenario-Wise Rec を紹介します。
このベンチマークは、研究者に先行研究から貴重な洞察を提供することを目的としており、新しいモデルの開発を可能にしている。
論文 参考訳(メタデータ) (2024-12-23T08:15:34Z) - Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.7791602217381]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。
第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。
評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文 参考訳(メタデータ) (2024-11-08T06:33:22Z) - SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition [3.4355593397388597]
音声感情認識(SER)は、強力な自己教師付き学習(SSL)モデルの出現に大きく貢献している。
本稿では,最先端SERモデルの堅牢性と適応性を評価するための大規模ベンチマークを提案する。
主に音声認識用に設計されたWhisperモデルは,言語横断SERにおいて,専用SSLモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-14T23:33:10Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - Unveiling the Potential of LLM-Based ASR on Chinese Open-Source Datasets [22.29915616018026]
LLM(Large Language Models)は、様々なNLPタスクにおいて非並列の有効性を示す。
本研究の目的は,音声エンコーダ,LLM,プロジェクタモジュールの様々な構成の影響を評価することである。
本研究では,3段階の学習手法を導入し,モデルが聴覚情報とテキスト情報を整合させる能力を高めることを目的とした。
論文 参考訳(メタデータ) (2024-05-03T14:35:58Z) - A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys) [57.30228361181045]
この調査は、ジェネレーティブモデル(Gen-RecSys)を用いたレコメンデーションシステムにおける重要な進歩を結びつける。
対話駆動生成モデル、自然言語レコメンデーションのための大規模言語モデル(LLM)とテキストデータの使用、RSにおける画像やビデオの生成と処理のためのマルチモーダルモデルの統合。
我々の研究は、Gen-RecSysの影響と害を評価するために必要なパラダイムを強調し、オープンな課題を特定します。
論文 参考訳(メタデータ) (2024-03-31T06:57:57Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Iteratively Improving Speech Recognition and Voice Conversion [10.514009693947227]
本稿ではまず,VCモデルのトレーニング中にコンテンツ保存を確保するために使用されるASRモデルをトレーニングする。
次のイテレーションでは、データ拡張手法としてVCモデルを使用し、ASRモデルをさらに微調整し、多様な話者に一般化する。
改良されたASRモデルをVCモデルと逆転モデルの訓練に反復的に活用することにより、両モデルの改善を実験的に示す。
論文 参考訳(メタデータ) (2023-05-24T11:45:42Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。