論文の概要: PSRB: A Comprehensive Benchmark for Evaluating Persian ASR Systems
- arxiv url: http://arxiv.org/abs/2505.21230v1
- Date: Tue, 27 May 2025 14:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.709326
- Title: PSRB: A Comprehensive Benchmark for Evaluating Persian ASR Systems
- Title(参考訳): PSRB:ペルシアのASRシステム評価のための総合ベンチマーク
- Authors: Nima Sedghiyeh, Sara Sadeghi, Reza Khodadadi, Farzin Kashani, Omid Aghdaei, Somayeh Rahimi, Mohammad Sadegh Safari,
- Abstract要約: 本稿では,多様な言語的・音響的条件を取り入れて,このギャップに対処するための総合ベンチマークであるペルシャ音声認識ベンチマーク(PSRB)を紹介する。
我々は、現在最先端の商用およびオープンソースモデルを含む10のASRシステムを評価し、性能変動と固有のバイアスについて検討する。
その結果,ASRモデルは標準ペルシア語でよく機能するが,地域アクセントや子どもの発話,特定の言語的課題に苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although Automatic Speech Recognition (ASR) systems have become an integral part of modern technology, their evaluation remains challenging, particularly for low-resource languages such as Persian. This paper introduces Persian Speech Recognition Benchmark(PSRB), a comprehensive benchmark designed to address this gap by incorporating diverse linguistic and acoustic conditions. We evaluate ten ASR systems, including state-of-the-art commercial and open-source models, to examine performance variations and inherent biases. Additionally, we conduct an in-depth analysis of Persian ASR transcriptions, identifying key error types and proposing a novel metric that weights substitution errors. This metric enhances evaluation robustness by reducing the impact of minor and partial errors, thereby improving the precision of performance assessment. Our findings indicate that while ASR models generally perform well on standard Persian, they struggle with regional accents, children's speech, and specific linguistic challenges. These results highlight the necessity of fine-tuning and incorporating diverse, representative training datasets to mitigate biases and enhance overall ASR performance. PSRB provides a valuable resource for advancing ASR research in Persian and serves as a framework for developing benchmarks in other low-resource languages. A subset of the PSRB dataset is publicly available at https://huggingface.co/datasets/PartAI/PSRB.
- Abstract(参考訳): 自動音声認識(ASR)システムは現代技術において欠かせない部分となっているが、特にペルシア語のような低リソース言語では、その評価は依然として困難である。
本稿では,多様な言語的・音響的条件を取り入れて,このギャップに対処するための総合ベンチマークであるペルシャ音声認識ベンチマーク(PSRB)を紹介する。
我々は、現在最先端の商用およびオープンソースモデルを含む10のASRシステムを評価し、性能変動と固有のバイアスについて検討する。
さらに、ペルシャのASR転写の詳細な分析を行い、キーエラータイプを特定し、置換エラーを重み付けする新しい指標を提案する。
この測定基準は、マイナーおよび部分誤差の影響を低減し、性能評価の精度を向上させることにより、評価ロバスト性を高める。
その結果,ASRモデルは標準ペルシア語でよく機能するが,地域アクセントや子どもの発話,特定の言語的課題に苦慮していることがわかった。
これらの結果は、バイアスを緩和し、全体的なASRパフォーマンスを向上させるために、さまざまな代表的なトレーニングデータセットを微調整し、組み込むことの必要性を強調している。
PSRBはペルシアでASR研究を進める上で貴重なリソースを提供し、他の低リソース言語でベンチマークを開発するためのフレームワークとして機能する。
PSRBデータセットのサブセットはhttps://huggingface.co/datasets/PartAI/PSRBで公開されている。
関連論文リスト
- ASR-FAIRBENCH: Measuring and Benchmarking Equity Across Speech Recognition Systems [3.8947802481286478]
ASR-FAIRBENCHのリーダーボードを導入し,ASRモデルの精度と等価性をリアルタイムで評価する。
提案手法は,人口集団間でのSOTA ASRモデルの性能格差を顕著に示し,より包括的なASR技術開発を促進するためのベンチマークを提供する。
論文 参考訳(メタデータ) (2025-05-16T11:31:31Z) - GEC-RAG: Improving Generative Error Correction via Retrieval-Augmented Generation for Automatic Speech Recognition Systems [8.669397145785942]
ペルシャ語のような低リソース領域のASR精度を向上させるために,検索型RAG(Retrieval-Augmented Generation)による生成誤差補正を提案する。
GEC-RAGは、TF-IDF(Term Frequency-Inverse Document Frequency)尺度を用いて、ASRの転写と語彙的に類似した例を検索する。
論文 参考訳(メタデータ) (2025-01-18T11:53:22Z) - Advancing Retrieval-Augmented Generation for Persian: Development of Language Models, Comprehensive Benchmarks, and Best Practices for Optimization [0.0]
本研究は,ペルシャ固有のモデルを導入することにより,検索と生成の精度を向上させることを目的とする。
3つのデータセット(一般知識(PQuad)、科学的に専門化されたテキスト、組織報告)を使用して、これらのモデルを評価した。
MatinaSRobertaは以前の埋め込みよりも優れており、データセット間のコンテキスト関連性と検索精度に優れていた。
論文 参考訳(メタデータ) (2025-01-08T22:16:40Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Diacritic Recognition Performance in Arabic ASR [2.28438857884398]
本稿では,アラビア語自動音声認識システムにおけるダイアクリティカルな音声認識性能について分析する。
現在の最先端のASRモデルは、その出力に完全なダイアライゼーションを生じさせない。
論文 参考訳(メタデータ) (2023-02-27T18:27:42Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - ASR in German: A Detailed Error Analysis [0.0]
この研究は、ドイツ語で事前訓練されたASRモデルアーキテクチャの選択を示し、様々なテストデータセットのベンチマークで評価する。
クロスアーキテクチャの予測エラーを特定し、それらをカテゴリに分類し、カテゴリ毎のエラーソースをトレーニングデータにトレースする。
論文 参考訳(メタデータ) (2022-04-12T08:25:01Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。