論文の概要: BlasBench: An Open Benchmark for Irish Speech Recognition
- arxiv url: http://arxiv.org/abs/2604.10736v2
- Date: Thu, 16 Apr 2026 21:22:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.273404
- Title: BlasBench: An Open Benchmark for Irish Speech Recognition
- Title(参考訳): BlasBench: アイルランド語の音声認識のためのオープンベンチマーク
- Authors: Jyoutir Raj, John Conway,
- Abstract要約: 既存のベンチマークにはアイルランド語が含まれているが、アイルランド語対応のテキスト正規化は適用されていない。
BlasBenchを紹介します。これは、ファダ、レニッション、エクリプシスを保存するスタンドアロンのアイリッシュ・アウェア・ノーマルライザを提供するオープンアセスメントハーネスです。
私たちは、Common Voice Ga-IEとFLEURS ga-IEの4つのアーキテクチャファミリで12のシステムをベンチマークすることで、これを試行しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing multilingual benchmarks include Irish among dozens of languages but apply no Irish-aware text normalisation, leaving reliable and reproducible ASR comparison impossible. We introduce BlasBench, an open evaluation harness that provides a standalone Irish-aware normaliser preserving fadas, lenition, and eclipsis; a reproducible scoring harness and per-utterance predictions released for all evaluated runs. We pilot this by benchmarking 12 systems across four architecture families on Common Voice ga-IE and FLEURS ga-IE. All Whisper variants exceed 100% WER through insertion-driven hallucination. Microsoft Azure reaches 22.2% WER on Common Voice and 57.5% on FLEURS; the best open model, Omnilingual ASR 7B, reaches 30.65% and 39.09% respectively. Models fine-tuned on Common Voice degrade 33-43 points moving to FLEURS, while massively multilingual models degrade only 7-10 - a generalisation gap that single-dataset evaluation misses.
- Abstract(参考訳): 既存の多言語ベンチマークにはアイルランド語が含まれているが、アイルランド語対応のテキスト正規化は適用せず、信頼性と再現可能なASR比較は不可能である。
BlasBenchを紹介します。これは、ファダ、レニッション、エクリプシスを保存するスタンドアロンのアイリッシュ対応正規表現器を提供するオープンアセスメントハーネスで、再現可能なスコアリングハーネスと、すべての評価実行でリリースされる発話毎の予測を提供する。
私たちは、Common Voice Ga-IEとFLEURS ga-IEの4つのアーキテクチャファミリで12のシステムをベンチマークすることで、これを試行しています。
すべてのウィスパー変種は挿入駆動幻覚によって100% WERを超える。
Microsoft Azureはコモンボイスで22.2%、FLEURSで57.5%に達し、最高のオープンモデルであるOmnilingual ASR 7Bは30.65%、39.09%に達した。
Common Voiceで微調整されたモデルは、FLEURSに移行した33-43点を分解し、巨大な多言語モデルは7-10点しか分解しなかった。
関連論文リスト
- Benchmarking Multilingual Speech Models on Pashto: Zero-Shot ASR, Script Failure, and Cross-Domain Evaluation [0.0]
Pashtoは、約6000~8000万人が話すが、共有公開テストセット上での多言語自動音声認識(ASR)のベンチマークは公開されていない。
本稿では,公開Pashtoデータに対する最初の再現可能なマルチモデル評価を行い,ゼロショットASR,スクリプトレベルの故障,微調整モデルのクロスドメイン評価について報告する。
論文 参考訳(メタデータ) (2026-04-06T11:23:42Z) - VocSim: A Training-free Benchmark for Zero-shot Content Identity in Single-source Audio [1.0791267046450075]
VocSimは、凍結埋め込みの固有の幾何学的アライメントを探索するトレーニング不要のベンチマークである。
VocSimは、人間のスピーチ、動物の発声、環境音にまたがる19のコーパスから125万のソースクリップを集約する。
論文 参考訳(メタデータ) (2025-12-10T22:13:12Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - IRLBench: A Multi-modal, Culturally Grounded, Parallel Irish-English Benchmark for Open-Ended LLM Reasoning Evaluation [3.9530780161144667]
本稿では、英語とアイルランド語を併用したIRLBenchについて紹介する。
私たちのベンチマークは、2024年のアイリッシュリービング認定試験から開発された12の代表的な被験者で構成されています。
モデルが有効なアイルランド語の応答を80%以下に抑え、正しい答えが55.8%であるのに対し、最高のパフォーマンスのモデルでは76.2%が英語である。
論文 参考訳(メタデータ) (2025-05-16T00:02:05Z) - Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Audio-Language Models [60.72029578488467]
アドリラルオーディオ攻撃は、人間と機械の相互作用における大きなオーディオ言語モデル(LALM)の利用の増加に重大な脅威をもたらす。
本稿では,4種類の音声攻撃を含むChat-Audio Attacksベンチマークを紹介する。
Gemini-1.5-Pro, GPT-4oなど, 音声対話機能を有する6つの最先端LALMの評価を行った。
論文 参考訳(メタデータ) (2024-11-22T10:30:48Z) - MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems [43.19298196163617]
両世界の長所を結合する簡単な手法を提案する。
MIRAGE-Benchは、ウィキペディアの18の多言語のための合成アリーナベースのRAGベンチマークである。
論文 参考訳(メタデータ) (2024-10-17T16:18:49Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Developing a Multilingual Dataset and Evaluation Metrics for Code-Switching: A Focus on Hong Kong's Polylingual Dynamics [0.5700195008916903]
我々は,Multi-Agent Data Generation Framework (MADGF) を用いた混合カントンと英語(MCE)音声の34.8時間データセットを開発した。
我々は,オープンソースの多言語自動音声認識(ASR)モデルであるWhisperをMCEデータセットで微調整し,印象的なゼロショット性能を実現した。
論文 参考訳(メタデータ) (2023-10-27T08:01:55Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。