Fugu-MT 論文翻訳(概要): Open Challenge for Correcting Errors of Speech Recognition Systems

論文の概要: Open Challenge for Correcting Errors of Speech Recognition Systems

arxiv url: http://arxiv.org/abs/2001.03041v1
Date: Thu, 9 Jan 2020 15:07:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 04:11:21.113308
Title: Open Challenge for Correcting Errors of Speech Recognition Systems
Title（参考訳）: 音声認識システムの誤り訂正のためのオープンチャレンジ
Authors: Marek Kubis, Zygmunt Vetulani, Miko{\l}aj Wypych, Tomasz Zi\k{e}tkiewicz
Abstract要約: 課題は, 音声処理システムによる事前の誤りに基づいて, 認識結果を補正する方法を検討することである。タスクのために準備されたデータセットを記述し、評価基準を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The paper announces the new long-term challenge for improving the performance of automatic speech recognition systems. The goal of the challenge is to investigate methods of correcting the recognition results on the basis of previously made errors by the speech processing system. The dataset prepared for the task is described and evaluation criteria are presented.
Abstract（参考訳）: 本稿では,音声認識システムの性能向上のための新たな長期課題について述べる。課題は, 音声処理システムによる事前の誤りに基づいて, 認識結果を補正する方法を検討することである。タスクのために準備されたデータセットを記述し、評価基準を示す。

関連論文リスト

Context Biasing for Pronunciations-Orthography Mismatch in Automatic Speech Recognition [56.972851337263755]
本稿では,置換誤りの訂正を可能とし,難解な単語の認識精度を向上させる手法を提案する。この手法により, 単語誤り率の相対的な改善を最大11%に抑えつつ, 単語誤り率の競争力を維持することができることを示す。
論文参考訳（メタデータ） (2025-06-23T14:42:03Z)
Exploring Generative Error Correction for Dysarthric Speech Recognition [12.584296717901116]
本稿では,InterSPEECH 2025における音声アクセシビリティ・プロジェクト・チャレンジのための2段階フレームワークを提案する。モデルスケールとトレーニング戦略の異なる構成を評価し、特定の仮説選択を取り入れて転写精度を向上させる。変形性音声認識における音響モデルと言語モデリングの相補的役割について考察する。
論文参考訳（メタデータ） (2025-05-26T16:06:31Z)
Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文参考訳（メタデータ） (2025-01-07T14:17:47Z)
Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文参考訳（メタデータ） (2024-09-15T16:32:49Z)
Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文参考訳（メタデータ） (2024-08-30T11:02:17Z)
Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors [0.4681661603096333]
音声対話システムにおいて、自然言語理解の性能を劣化させることができる音声認識システムにより、NLUモデルが先行する。本稿では,音声認識誤りが自然言語理解モデルの性能に与える影響を調査する手法を提案する。
論文参考訳（メタデータ） (2023-10-25T13:07:07Z)
ed-cec: improving rare word recognition using asr postprocessing based on error detection and context-aware error correction [30.486396813844195]
本稿では,誤り検出と文脈認識誤り訂正により,稀な単語の認識を改善することに焦点を当てた新しいASRポストプロセッシング手法を提案する。 5つのデータセットにまたがる実験結果から,提案手法は従来の手法に比べて単語誤り率(WER)が有意に低いことを示す。
論文参考訳（メタデータ） (2023-10-08T11:40:30Z)
Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文参考訳（メタデータ） (2022-10-27T08:10:44Z)
End-to-end Speech-to-Punctuated-Text Recognition [23.44236710364419]
句読点は、音声認識結果の可読性にとって重要である。従来の自動音声認識システムは句読点を生成しない。本稿では,音声を入力とし,句読解テキストを出力するエンドツーエンドモデルを提案する。
論文参考訳（メタデータ） (2022-07-07T08:58:01Z)
Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文参考訳（メタデータ） (2022-04-05T21:22:38Z)
Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文参考訳（メタデータ） (2022-01-15T13:02:40Z)
Contextualized Attention-based Knowledge Transfer for Spoken Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。 Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2020-10-21T15:17:18Z)
A Machine of Few Words -- Interactive Speaker Recognition with Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文参考訳（メタデータ） (2020-08-07T12:44:08Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。