Fugu-MT 論文翻訳(概要): Advocating Character Error Rate for Multilingual ASR Evaluation

論文の概要: Advocating Character Error Rate for Multilingual ASR Evaluation

arxiv url: http://arxiv.org/abs/2410.07400v2
Date: Fri, 18 Oct 2024 15:54:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 20:47:00.220671
Title: Advocating Character Error Rate for Multilingual ASR Evaluation
Title（参考訳）: 多言語ASR評価における文字誤り率の回避
Authors: Thennal D K, Jesin James, Deepa P Gopinath, Muhammed Ashraf K,
Abstract要約: 本稿では,単語誤り率(WER)の限界を評価指標として記述し,文字誤り率(CER)を主指標として提唱する。我々は,CERがWERが直面している課題の多くを回避し,書き込みシステム全体の一貫性を示すことを示す。以上の結果から,多言語ASR評価においてCERを優先的に,少なくとも補足すべきであることが示唆された。
参考スコア（独自算出の注目度）: 1.2597747768235845
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic speech recognition (ASR) systems have traditionally been evaluated using English datasets, with the word error rate (WER) serving as the predominant metric. WER's simplicity and ease of interpretation have contributed to its widespread adoption, particularly for English. However, as ASR systems expand to multilingual contexts, WER fails in various ways, particularly with morphologically complex languages or those without clear word boundaries. Our work documents the limitations of WER as an evaluation metric and advocates for the character error rate (CER) as the primary metric in multilingual ASR evaluation. We show that CER avoids many of the challenges WER faces and exhibits greater consistency across writing systems. We support our proposition by conducting human evaluations of ASR transcriptions in three languages: Malayalam, English, and Arabic, which exhibit distinct morphological characteristics. We show that CER correlates more closely with human judgments than WER, even for English. To facilitate further research, we release our human evaluation dataset for future benchmarking of ASR metrics. Our findings suggest that CER should be prioritized, or at least supplemented, in multilingual ASR evaluations to account for the varying linguistic characteristics of different languages.
Abstract（参考訳）: 音声認識システム(ASR)は、伝統的に英語のデータセットを用いて評価され、単語誤り率(WER)が主要な指標となっている。 WERの単純さと解釈の容易さは、特に英語において広く採用されている。しかし、ASRシステムが多言語に拡張するにつれて、WERは様々な方法で失敗し、特に形態学的に複雑な言語や明確な単語境界を持たない言語では失敗する。本研究は,WERの限界を評価指標として記述し,多言語ASR評価における主指標として文字誤り率(CER)を提唱する。我々は、CERがWERが直面している多くの課題を回避し、書き込みシステム全体にわたってより一貫性を示すことを示す。我々は,マラヤラム,英語,アラビア語の3言語でASR転写の人為的評価を行い,形態学的特徴を明瞭に示すことによって提案を裏付ける。 CERは、英語においても、WERよりも人間の判断と密接に関連していることが示される。さらなる研究を容易にするため、今後のASRメトリクスのベンチマークのための人体評価データセットをリリースする。以上の結果から,多言語ASR評価においてCERを優先的に,少なくとも補足すべきであることが示唆された。

関連論文リスト

Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。 LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文参考訳（メタデータ） (2025-06-11T07:06:27Z)
PSRB: A Comprehensive Benchmark for Evaluating Persian ASR Systems [0.0]
本稿では,多様な言語的・音響的条件を取り入れて,このギャップに対処するための総合ベンチマークであるペルシャ音声認識ベンチマーク(PSRB)を紹介する。我々は、現在最先端の商用およびオープンソースモデルを含む10のASRシステムを評価し、性能変動と固有のバイアスについて検討する。その結果,ASRモデルは標準ペルシア語でよく機能するが,地域アクセントや子どもの発話,特定の言語的課題に苦慮していることがわかった。
論文参考訳（メタデータ） (2025-05-27T14:14:55Z)
Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文参考訳（メタデータ） (2025-05-23T02:46:18Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Style-agnostic evaluation of ASR using multiple reference transcripts [0.3066137405373616]
我々は、ASRシステムのスタイルに依存しない評価を行うことにより、これらの違いのいくつかを軽減することを試みる。既存のWERレポートは、最先端のASRシステムによる競合エラーの数を大幅に過大評価している可能性が高い。
論文参考訳（メタデータ） (2024-12-10T21:47:15Z)
Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文参考訳（メタデータ） (2024-09-27T03:31:32Z)
What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations [0.0]
本稿では,OpenAI Whisper,MetaのMMS,Seamless,アセンブリAIのConformerなど,主要なASRモデルのテキスト正規化ルーチンについて検討する。我々の研究は、現在のテキスト正規化の実践が、公正な比較のためにASR出力を標準化することを目的としている一方で、Indicスクリプトに適用した場合、根本的な欠陥があることを明らかにする。本稿では,言語学の専門知識を生かしたテキスト正規化ルーチン開発へのシフトを提案する。
論文参考訳（メタデータ） (2024-09-04T05:08:23Z)
The Balancing Act: Unmasking and Alleviating ASR Biases in Portuguese [5.308321515594125]
本研究は,Whisper および MMS システムの総合的な探索を目的としたものである。調査対象は性別,年齢,肌の色,位置情報など多岐にわたる。オーバーサンプリング技術がこのようなステレオタイプバイアスを軽減することを実証的に示す。
論文参考訳（メタデータ） (2024-02-12T09:35:13Z)
Machine Translation Meta Evaluation through Translation Accuracy Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文参考訳（メタデータ） (2024-01-29T17:17:42Z)
CL-MASR: A Continual Learning Benchmark for Multilingual ASR [15.974765568276615]
連続学習環境における多言語自動音声認識のベンチマークであるCL-MASRを提案する。 CL-MASRは、大規模事前訓練されたASRモデル上に実装された多種多様な連続学習手法と共通のメトリクスを提供する。我々の知る限り、CL-MASRは多言語ASRタスクのための最初の連続学習ベンチマークである。
論文参考訳（メタデータ） (2023-10-25T18:55:40Z)
CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。 CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文参考訳（メタデータ） (2022-11-04T12:56:12Z)
Bilingual End-to-End ASR with Byte-Level Subwords [4.268218327369146]
文字レベル、バイトレベル、バイトペア符号化(BPE)、バイトレベルバイトペア符号化(BBPE)など、さまざまな表現について検討する。我々は,発話に基づくバイリンガルASRをサポートする単一エンドツーエンドモデルの開発に注力する。ペナルティスキーム付きBBPEは,少ない出力と少ないパラメータであっても,発話ベースのバイリンガルASR性能を2%から5%向上できることがわかった。
論文参考訳（メタデータ） (2022-05-01T15:01:01Z)
Language Dependencies in Adversarial Attacks on Speech Recognition Systems [0.0]
我々は、ドイツ語と英語のASRシステムの攻撃可能性を比較する。一方の言語モデルが他方よりも操作に影響を受けやすいかを検討する。
論文参考訳（メタデータ） (2022-02-01T13:27:40Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)
Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文参考訳（メタデータ） (2021-01-21T00:15:38Z)
Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文参考訳（メタデータ） (2020-10-26T13:57:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。