論文の概要: Benchmarking Evaluation Metrics for Code-Switching Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2211.16319v1
- Date: Tue, 22 Nov 2022 08:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:08:38.158319
- Title: Benchmarking Evaluation Metrics for Code-Switching Automatic Speech
Recognition
- Title(参考訳): コード切替自動音声認識のためのベンチマーク評価指標
- Authors: Injy Hamed, Amir Hussein, Oumnia Chellah, Shammur Chowdhury, Hamdy
Mubarak, Sunayana Sitaram, Nizar Habash, Ahmed Ali
- Abstract要約: 本研究では,人間の判断によるコードスイッチング音声認識仮説のベンチマークデータセットを開発する。
自動仮説の最小化のための明確なガイドラインを定義する。
我々は、アラビア語/英語の方言音声におけるコードスイッチング音声認識結果の人間受容のための最初のコーパスをリリースする。
- 参考スコア(独自算出の注目度): 19.763431520942028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching poses a number of challenges and opportunities for
multilingual automatic speech recognition. In this paper, we focus on the
question of robust and fair evaluation metrics. To that end, we develop a
reference benchmark data set of code-switching speech recognition hypotheses
with human judgments. We define clear guidelines for minimal editing of
automatic hypotheses. We validate the guidelines using 4-way inter-annotator
agreement. We evaluate a large number of metrics in terms of correlation with
human judgments. The metrics we consider vary in terms of representation
(orthographic, phonological, semantic), directness (intrinsic vs extrinsic),
granularity (e.g. word, character), and similarity computation method. The
highest correlation to human judgment is achieved using transliteration
followed by text normalization. We release the first corpus for human
acceptance of code-switching speech recognition results in dialectal
Arabic/English conversation speech.
- Abstract(参考訳): コードスイッチングは多言語自動音声認識における多くの課題と機会をもたらす。
本稿では,ロバストかつ公正な評価指標の問題に焦点を当てる。
そこで本研究では,人間の判断によるコード切り換え音声認識仮説の基準ベンチマークデータセットを開発する。
自動仮説の最小化のための明確なガイドラインを定義する。
4ウェイインターアノテータ協定を用いてガイドラインを検証した。
我々は、人間の判断との相関の観点から、多数の指標を評価する。
私たちが考慮している指標は、表現(orthographic, phonological, semantic)、直接性(inrinsic vs extrinsic)、粒度(語、文字など)、類似性計算法によって異なる。
人間の判断と最も高い相関関係は、音訳とテキスト正規化によって達成される。
アラビア語・英語会話音声におけるコード切り換え音声認識結果の人間の受け入れのための最初のコーパスをリリースする。
関連論文リスト
- Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - SpeechLMScore: Evaluating speech generation using speech language model [43.20067175503602]
本稿では,音声認識モデルを用いて生成した音声を評価するための教師なしメトリックであるSpeechLMScoreを提案する。
人間のアノテーションは必要とせず、高度にスケーラブルなフレームワークです。
評価結果は,提案手法が音声生成タスクにおける評価スコアと有望な相関を示すことを示す。
論文 参考訳(メタデータ) (2022-12-08T21:00:15Z) - The Conversational Short-phrase Speaker Diarization (CSSD) Task:
Dataset, Evaluation Metric and Baselines [63.86406909879314]
本稿では,会話短文話者ダイアリゼーション(CSSD)タスクについて述べる。
トレーニングとテストのデータセット、評価基準、ベースラインで構成されている。
距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。
論文 参考訳(メタデータ) (2022-08-17T03:26:23Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Assessing Evaluation Metrics for Speech-to-Speech Translation [9.670709690031885]
音声から音声への翻訳は機械翻訳と音声合成を組み合わせたものである。
音声から音声への翻訳を自動的に評価する方法は、これまで検討されていないオープンな質問である。
論文 参考訳(メタデータ) (2021-10-26T17:35:20Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Evaluating the reliability of acoustic speech embeddings [10.5754802112615]
音声埋め込みは可変長音声列の定サイズ音響表現である。
ここでは,ABX識別と平均精度 (MAP) という2つの一般的な指標を,17の埋め込み手法にまたがる5つの言語で体系的に比較する。
ABXとMAPは相互に相関し,周波数推定を行う。
論文 参考訳(メタデータ) (2020-07-27T13:24:09Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。