Fugu-MT 論文翻訳(概要): Open Universal Arabic ASR Leaderboard

論文の概要: Open Universal Arabic ASR Leaderboard

arxiv url: http://arxiv.org/abs/2412.13788v1
Date: Wed, 18 Dec 2024 12:31:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:52.211728
Title: Open Universal Arabic ASR Leaderboard
Title（参考訳）: Open Universal Arabic ASR Leaderboard
Authors: Yingzhi Wang, Anas Alhmoud, Muhammad Alqurishi,
Abstract要約: オープンユニバーサルアラビア ASR Leaderboard をオープンソースアラビア ASR モデルのための連続ベンチマークプロジェクトとして紹介する。また,モデルのロバスト性,話者適応性,推論効率,メモリ消費を包括的に分析する。
参考スコア（独自算出の注目度）: 0.12679500175052566
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, the enhanced capabilities of ASR models and the emergence of multi-dialect datasets have increasingly pushed Arabic ASR model development toward an all-dialect-in-one direction. This trend highlights the need for benchmarking studies that evaluate model performance on multiple dialects, providing the community with insights into models' generalization capabilities. In this paper, we introduce Open Universal Arabic ASR Leaderboard, a continuous benchmark project for open-source general Arabic ASR models across various multi-dialect datasets. We also provide a comprehensive analysis of the model's robustness, speaker adaptation, inference efficiency, and memory consumption. This work aims to offer the Arabic ASR community a reference for models' general performance and also establish a common evaluation framework for multi-dialectal Arabic ASR models.
Abstract（参考訳）: 近年,ASRモデルの高機能化や多言語データセットの出現により,アラビア語によるASRモデルの開発が一方向に向かって進んでいる。この傾向は、複数の方言におけるモデルパフォーマンスを評価するベンチマーク研究の必要性を強調し、モデルの一般化能力に関する洞察をコミュニティに提供する。本稿では,様々な多言語データセットを対象としたオープンソースの一般アラビアASRモデルのための連続ベンチマークプロジェクトであるOpen Universal Arabic ASR Leaderboardを紹介する。また,モデルのロバスト性,話者適応性,推論効率,メモリ消費を総合的に分析する。この研究は、アラビアASRコミュニティにモデルの一般的なパフォーマンスへの参照を提供することと、多言語アラビアASRモデルの共通評価フレームワークを確立することを目的としている。

関連論文リスト

Habibi: Laying the Open-Source Foundation of Unified-Dialectal Arabic Speech Synthesis [20.50741854108831]
本稿では,特殊・統一された音声合成モデルであるHabibiを紹介する。当社のアプローチは、先進的な商用サービスの世代品質を上回ります。我々は、多言語アラビア語音声合成のための最初の体系的ベンチマークを作成する。
論文参考訳（メタデータ） (2026-01-20T10:02:11Z)
Open Automatic Speech Recognition Models for Classical and Modern Standard Arabic [15.807843278492847]
言語固有の課題に対処するために,アラビア語音声とテキスト処理の普遍的方法論を導入する。我々は、FastConformerアーキテクチャに基づく2つの新しいモデルを訓練する。ひとつは、モダンスタンダードアラビア(MSA)用に特別に設計されたもので、もうひとつは、MSAと古典アラビア(CA)の両方のための最初の統一パブリックモデルである。 MSAモデルは、関連するデータセット上での最先端(SOTA)パフォーマンスで新しいベンチマークを設定し、統一モデルは、MSAの強いパフォーマンスを維持しながら、CAのためのダイアクリティカルティクスでSOTA精度を達成する。
論文参考訳（メタデータ） (2025-07-18T14:42:18Z)
ASR-FAIRBENCH: Measuring and Benchmarking Equity Across Speech Recognition Systems [3.8947802481286478]
ASR-FAIRBENCHのリーダーボードを導入し,ASRモデルの精度と等価性をリアルタイムで評価する。提案手法は,人口集団間でのSOTA ASRモデルの性能格差を顕著に示し,より包括的なASR技術開発を促進するためのベンチマークを提供する。
論文参考訳（メタデータ） (2025-05-16T11:31:31Z)
Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning [0.0]
弱教師付き学習を用いて、コンフォーマーアーキテクチャを用いてアラビアASRモデルを訓練する。我々のモデルは、現代標準アラビア語(MSA)と方言アラビア語(DA)の両方をカバーする弱注釈音声データを15,000時間スクラッチから訓練する。
論文参考訳（メタデータ） (2025-04-16T17:05:14Z)
Scenario-Wise Rec: A Multi-Scenario Recommendation Benchmark [54.93461228053298]
6つの公開データセットと12のベンチマークモデルと、トレーニングと評価パイプラインで構成されるベンチマークである textbfScenario-Wise Rec を紹介します。このベンチマークは、研究者に先行研究から貴重な洞察を提供することを目的としており、新しいモデルの開発を可能にしている。
論文参考訳（メタデータ） (2024-12-23T08:15:34Z)
Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks [112.7791602217381]
命令ベースユニバーサル音声モデルの包括的評価のためのオープンベンチマークであるDynamic-SUPERB Phase-2を提案する。第1世代をベースとして、この第2バージョンには125の新しいタスクが含まれており、ベンチマークを合計180タスクに拡張している。評価結果から,どのモデルも良好に動作しなかったことが示唆された。
論文参考訳（メタデータ） (2024-11-08T06:33:22Z)
Dialectal Coverage And Generalization in Arabic Speech Recognition [0.6757476692230007]
既存のASRシステムは、多種多様な話し言葉にまたがる範囲と一般化において不足している。アラビア語圏の様々な地域では、英語やフランス語とのコードスイッチも一般的である。音声アラビアの複数の変種を効果的に認識するために最適化された一連のASRモデルを提案する。
論文参考訳（メタデータ） (2024-11-07T22:23:30Z)
SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition [3.4355593397388597]
音声感情認識(SER)は、強力な自己教師付き学習(SSL)モデルの出現に大きく貢献している。本稿では,最先端SERモデルの堅牢性と適応性を評価するための大規模ベンチマークを提案する。主に音声認識用に設計されたWhisperモデルは,言語横断SERにおいて,専用SSLモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-08-14T23:33:10Z)
Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文参考訳（メタデータ） (2024-07-16T14:40:07Z)
Unveiling the Potential of LLM-Based ASR on Chinese Open-Source Datasets [22.29915616018026]
LLM(Large Language Models)は、様々なNLPタスクにおいて非並列の有効性を示す。本研究の目的は,音声エンコーダ,LLM,プロジェクタモジュールの様々な構成の影響を評価することである。本研究では,3段階の学習手法を導入し,モデルが聴覚情報とテキスト情報を整合させる能力を高めることを目的とした。
論文参考訳（メタデータ） (2024-05-03T14:35:58Z)
A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys) [57.30228361181045]
この調査は、ジェネレーティブモデル(Gen-RecSys)を用いたレコメンデーションシステムにおける重要な進歩を結びつける。対話駆動生成モデル、自然言語レコメンデーションのための大規模言語モデル(LLM)とテキストデータの使用、RSにおける画像やビデオの生成と処理のためのマルチモーダルモデルの統合。我々の研究は、Gen-RecSysの影響と害を評価するために必要なパラダイムを強調し、オープンな課題を特定します。
論文参考訳（メタデータ） (2024-03-31T06:57:57Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文参考訳（メタデータ） (2023-08-15T17:59:18Z)
Iteratively Improving Speech Recognition and Voice Conversion [10.514009693947227]
本稿ではまず,VCモデルのトレーニング中にコンテンツ保存を確保するために使用されるASRモデルをトレーニングする。次のイテレーションでは、データ拡張手法としてVCモデルを使用し、ASRモデルをさらに微調整し、多様な話者に一般化する。改良されたASRモデルをVCモデルと逆転モデルの訓練に反復的に活用することにより、両モデルの改善を実験的に示す。
論文参考訳（メタデータ） (2023-05-24T11:45:42Z)
End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。 E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文参考訳（メタデータ） (2023-03-03T01:46:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。