論文の概要: BlasBench: An Open Benchmark for Irish Speech Recognition
- arxiv url: http://arxiv.org/abs/2604.10736v1
- Date: Sun, 12 Apr 2026 17:17:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.194247
- Title: BlasBench: An Open Benchmark for Irish Speech Recognition
- Title(参考訳): BlasBench: アイルランド語の音声認識のためのオープンベンチマーク
- Authors: Jyoutir Raj, John Conway,
- Abstract要約: BlasBenchは、アイルランドのテキスト正規化を意識したオープンアセスメントハーネスである。
我々は、Common Voice ga-IEとFLEURS ga-IEの4つのアーキテクチャファミリにまたがる12のシステムをベンチマークする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: No open Irish-specific benchmark compares end-user ASR systems under a shared Irish-aware evaluation protocol. To solve this, we release BlasBench, an open evaluation harness with Irish-aware text normalisation that preserves fadas, lenition, and eclipsis. We benchmark 12 systems across four architecture families on Common Voice ga-IE and FLEURS ga-IE. All Whisper variants exceed 100% WER. The best open model (omniASR LLM 7B) achieves 30.65% WER on Common Voice and 39.09% on FLEURS. We noticed models fine-tuned on Common Voice lose 33-43 WER points on FLEURS, revealing a generalisation gap that is invisible to single-dataset evaluation.
- Abstract(参考訳): オープンアイリッシュ固有のベンチマークは、共有アイリッシュ対応評価プロトコルの下でエンドユーザーASRシステムと比較しない。
これを解決するために、アイルランドのテキスト正規化を意識したオープンアセスメントハーネスであるBlasBenchをリリースする。
我々は、Common Voice ga-IEとFLEURS ga-IEの4つのアーキテクチャファミリにまたがる12のシステムをベンチマークする。
すべてのウィスパー変種は100% WER を超える。
最高のオープンモデル(omniASR LLM 7B)はCommon Voiceで30.65% WER、FLEURSで39.09%を達成している。
FLEURSでは,Common Voiceで微調整したモデルでは33-43のWERポイントが失われ,単一データセット評価では見えない一般化のギャップが明らかとなった。
関連論文リスト
- Benchmarking Multilingual Speech Models on Pashto: Zero-Shot ASR, Script Failure, and Cross-Domain Evaluation [0.0]
Pashtoは、約6000~8000万人が話すが、共有公開テストセット上での多言語自動音声認識(ASR)のベンチマークは公開されていない。
本稿では,公開Pashtoデータに対する最初の再現可能なマルチモデル評価を行い,ゼロショットASR,スクリプトレベルの故障,微調整モデルのクロスドメイン評価について報告する。
論文 参考訳(メタデータ) (2026-04-06T11:23:42Z) - VocSim: A Training-free Benchmark for Zero-shot Content Identity in Single-source Audio [1.0791267046450075]
VocSimは、凍結埋め込みの固有の幾何学的アライメントを探索するトレーニング不要のベンチマークである。
VocSimは、人間のスピーチ、動物の発声、環境音にまたがる19のコーパスから125万のソースクリップを集約する。
論文 参考訳(メタデータ) (2025-12-10T22:13:12Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - IRLBench: A Multi-modal, Culturally Grounded, Parallel Irish-English Benchmark for Open-Ended LLM Reasoning Evaluation [3.9530780161144667]
本稿では、英語とアイルランド語を併用したIRLBenchについて紹介する。
私たちのベンチマークは、2024年のアイリッシュリービング認定試験から開発された12の代表的な被験者で構成されています。
モデルが有効なアイルランド語の応答を80%以下に抑え、正しい答えが55.8%であるのに対し、最高のパフォーマンスのモデルでは76.2%が英語である。
論文 参考訳(メタデータ) (2025-05-16T00:02:05Z) - Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Audio-Language Models [60.72029578488467]
アドリラルオーディオ攻撃は、人間と機械の相互作用における大きなオーディオ言語モデル(LALM)の利用の増加に重大な脅威をもたらす。
本稿では,4種類の音声攻撃を含むChat-Audio Attacksベンチマークを紹介する。
Gemini-1.5-Pro, GPT-4oなど, 音声対話機能を有する6つの最先端LALMの評価を行った。
論文 参考訳(メタデータ) (2024-11-22T10:30:48Z) - MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems [43.19298196163617]
両世界の長所を結合する簡単な手法を提案する。
MIRAGE-Benchは、ウィキペディアの18の多言語のための合成アリーナベースのRAGベンチマークである。
論文 参考訳(メタデータ) (2024-10-17T16:18:49Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Developing a Multilingual Dataset and Evaluation Metrics for Code-Switching: A Focus on Hong Kong's Polylingual Dynamics [0.5700195008916903]
我々は,Multi-Agent Data Generation Framework (MADGF) を用いた混合カントンと英語(MCE)音声の34.8時間データセットを開発した。
我々は,オープンソースの多言語自動音声認識(ASR)モデルであるWhisperをMCEデータセットで微調整し,印象的なゼロショット性能を実現した。
論文 参考訳(メタデータ) (2023-10-27T08:01:55Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。