論文の概要: Open ASR Leaderboard: Towards Reproducible and Transparent Multilingual and Long-Form Speech Recognition Evaluation
- arxiv url: http://arxiv.org/abs/2510.06961v1
- Date: Wed, 08 Oct 2025 12:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.493512
- Title: Open ASR Leaderboard: Towards Reproducible and Transparent Multilingual and Long-Form Speech Recognition Evaluation
- Title(参考訳): Open ASR Leaderboard: 再現性と透明な多言語・長期音声認識評価を目指して
- Authors: Vaibhav Srivastav, Steven Zheng, Eric Bezzam, Eustache Le Bihan, Nithin Koluguri, Piotr Żelasko, Somshubra Majumdar, Adel Moumen, Sanchit Gandhi,
- Abstract要約: 我々は、11データセットにわたる60以上のオープンソースおよびプロプライエタリシステムを比較した、完全に再現可能なベンチマークであるOpen ASR Leaderboardを提示する。
We standardize text and report both word error rate (WER) and real-time efficiency factor (RTFx)。
英語の書き起こしでは、コンバータエンコーダとデコーダのペアは、微調整された平均的なWERを提供するが、TDTデコーダは平均的なWERを提供する。
- 参考スコア(独自算出の注目度): 8.041617921298709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid progress, ASR evaluation remains saturated with short-form English, and efficiency is rarely reported. We present the Open ASR Leaderboard, a fully reproducible benchmark and interactive leaderboard comparing 60+ open-source and proprietary systems across 11 datasets, including dedicated multilingual and long-form tracks. We standardize text normalization and report both word error rate (WER) and inverse real-time factor (RTFx), enabling fair accuracy-efficiency comparisons. For English transcription, Conformer encoders paired with LLM decoders achieve the best average WER but are slower, while CTC and TDT decoders deliver much better RTFx, making them attractive for long-form and offline use. Whisper-derived encoders fine-tuned for English improve accuracy but often trade off multilingual coverage. All code and dataset loaders are open-sourced to support transparent, extensible evaluation.
- Abstract(参考訳): 急激な進歩にもかかわらず、ASRの評価は英語の短文で飽和しており、効率を報告されることは稀である。
私たちはOpen ASR Leaderboardを紹介します。これは、完全に再現可能なベンチマークとインタラクティブなリーダーボードで、11のデータセットにわたる60以上のオープンソースおよびプロプライエタリなシステムを比較します。
テキスト正規化を標準化し,単語誤り率 (WER) と逆リアルタイム係数 (RTFx) の両方を報告する。
英語の転写では、LLMデコーダと組み合わせたコンフォーマーエンコーダが平均的なWERを達成するが、CTCとTDTデコーダはより優れたRTFxを提供するため、長文とオフラインでの使用には魅力的である。
ウィスパー由来のエンコーダは英語で微調整され、精度は向上するが、多言語での使用は禁止されることが多い。
すべてのコードとデータセットローダはオープンソースで、透過的で拡張可能な評価をサポートする。
関連論文リスト
- Canary-1B-v2 & Parakeet-TDT-0.6B-v3: Efficient and High-Performance Models for Multilingual ASR and AST [39.38800105667601]
Canary-1B-v2は、自動音声認識(ASR)と音声テキスト翻訳(AST)のための高速で堅牢な多言語モデルである
FastConformerエンコーダとTransformerデコーダで構築され、主にヨーロッパ25言語をサポートしている。
動的データバランシングを伴う2段階の事前学習および微調整プロセスとnGPTエンコーダを用いた実験について述べる。
論文 参考訳(メタデータ) (2025-09-17T16:08:46Z) - SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
テキストの不規則性や言語コンテキストのモデル化が可能なCTCモデルであるSVTRv2を提案する。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で広範囲に評価した。
SVTRv2は精度と推論速度の点でほとんどのEDTRを超越している。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Boosting Zero-shot Cross-lingual Retrieval by Training on Artificially
Code-Switched Data [26.38449396649045]
問合せや文書が言語によって異なる場合,ゼロショットローダの有効性は低下する。
そこで我々は,人工的なコード切替データに基づいてランキングモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2023-05-09T09:32:19Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。