Fugu-MT 論文翻訳(概要): SeMaScore : a new evaluation metric for automatic speech recognition tasks

論文の概要: SeMaScore : a new evaluation metric for automatic speech recognition tasks

arxiv url: http://arxiv.org/abs/2401.07506v2
Date: Thu, 14 Nov 2024 12:02:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.322785
Title: SeMaScore : a new evaluation metric for automatic speech recognition tasks
Title（参考訳）: SeMaScore : 音声認識タスクのための新しい評価基準
Authors: Zitha Sasindran, Harsha Yelchuri, T. V. Prabhakar,
Abstract要約: SeMaScoreは自動音声認識タスクの評価指標である。提案アルゴリズムのスコア生成は,最先端のBERTScoreにより向上することを示す。
参考スコア（独自算出の注目度）: 0.3277163122167433
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this study, we present SeMaScore, generated using a segment-wise mapping and scoring algorithm that serves as an evaluation metric for automatic speech recognition tasks. SeMaScore leverages both the error rate and a more robust similarity score. We show that our algorithm's score generation improves upon the state-of-the-art BERTScore. Our experimental results show that SeMaScore corresponds well with expert human assessments, signal-to-noise ratio levels, and other natural language metrics. We outperform BERTScore by 41x in metric computation speed. Overall, we demonstrate that SeMaScore serves as a more dependable evaluation metric, particularly in real-world situations involving atypical speech patterns.
Abstract（参考訳）: 本研究では,自動音声認識タスクの評価指標として機能するセグメントワイドマッピングとスコアリングアルゴリズムを用いて生成したSeMaScoreを提案する。 SeMaScoreはエラー率とより堅牢な類似性スコアの両方を活用する。提案アルゴリズムのスコア生成は,最先端のBERTScoreにより向上することを示す。実験の結果,SeMaScoreは専門家による評価,信号と雑音の比率,その他の自然言語の指標とよく一致していることがわかった。 BERTScoreを41倍の精度で計算する。全体として、SeMaScoreは、特に非典型的音声パターンを含む現実の状況において、より信頼性の高い評価指標として機能することを示す。

関連論文リスト

Rethinking Evaluation Metrics for Grammatical Error Correction: Why Use a Different Evaluation Process than Human? [13.02513034520894]
本稿では,人的評価手法と整合してギャップを埋める自動評価指標の集約手法を提案する。編集ベースのメトリクス、$n$-gramベースのメトリクス、文レベルのメトリクスなど、さまざまなメトリクスを用いて実験を行い、SEEDAベンチマークのほとんどのメトリクスに対して、ギャップの解消が結果を改善することを示す。
論文参考訳（メタデータ） (2025-02-13T15:39:07Z)
CEScore: Simple and Efficient Confidence Estimation Model for Evaluating Split and Rephrase [12.941846935434874]
本稿では,SRタスクを自動評価する新しい統計モデルとしてCEScoreを紹介する。人間がSRを評価する方法を模倣することで、CEScoreはシンプルさ、文法性、保存の意味、全体的な品質を評価する4つの指標を提供する。 26モデルの実験では、CEScoreは人間の評価と強く相関し、モデルレベルでのスピアマン相関で0.98に達する。
論文参考訳（メタデータ） (2023-12-03T11:36:23Z)
INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。 LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文参考訳（メタデータ） (2023-05-23T17:27:22Z)
LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation [72.28170752443224]
既存のテキスト対画像合成の自動評価は、画像とテキストのマッチングスコアしか提供できない。マルチグラニュラリティ合成による評価スコアを提供する新しいフレームワークであるLLMScoreを提案する。
論文参考訳（メタデータ） (2023-05-18T16:57:57Z)
InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文参考訳（メタデータ） (2023-05-10T09:22:44Z)
Toward Human-Like Evaluation for Natural Language Generation with Error Analysis [93.34894810865364]
最近の研究では、大きなエラー(例えば、誤訳されたトークン)と小さなエラーの両方を考慮すると、高品質な人間の判断が得られることが示されている。これにより、自動エラー解析によって評価指標(人間のような評価)の最終目標にアプローチするインスピレーションがもたらされる。 BARTScoreは人為的なエラー解析戦略、すなわちBARTScore++を取り入れることでBARTScoreを強化します。
論文参考訳（メタデータ） (2022-12-20T11:36:22Z)
SpeechLMScore: Evaluating speech generation using speech language model [43.20067175503602]
本稿では,音声認識モデルを用いて生成した音声を評価するための教師なしメトリックであるSpeechLMScoreを提案する。人間のアノテーションは必要とせず、高度にスケーラブルなフレームワークです。評価結果は,提案手法が音声生成タスクにおける評価スコアと有望な相関を示すことを示す。
論文参考訳（メタデータ） (2022-12-08T21:00:15Z)
H_eval: A new hybrid evaluation metric for automatic speech recognition tasks [0.3277163122167433]
ASRシステムのための新しいハイブリッド評価指標であるH_evalを提案する。意味的正当性と誤り率の両方を考慮し、WERとSDが不十分なシナリオでは極めてよく機能する。
論文参考訳（メタデータ） (2022-11-03T11:23:36Z)
DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence [30.10146423935216]
本稿では,異なる視点から対話コヒーレンスをモデル化するためにBERTを用いた談話計量であるDiscoScoreを紹介する。実験は、DiscoScoreや一般的なコヒーレンスモデルを含む16の非談話および談話メトリクスを含む。
論文参考訳（メタデータ） (2022-01-26T20:28:26Z)
Perception Score, A Learned Metric for Open-ended Text Generation Evaluation [62.7690450616204]
本稿では,新しい,強力な学習ベース評価尺度を提案する。本手法は,単語の重なり合いなどの評価基準にのみ焦点をあてるのではなく,生成の全体的な品質を測定し,一律に得点する。
論文参考訳（メタデータ） (2020-08-07T10:48:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。