論文の概要: asr_eval: Algorithms and tools for multi-reference and streaming speech recognition evaluation
- arxiv url: http://arxiv.org/abs/2601.20992v1
- Date: Wed, 28 Jan 2026 19:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.409061
- Title: asr_eval: Algorithms and tools for multi-reference and streaming speech recognition evaluation
- Title(参考訳): asr_eval:マルチ参照およびストリーミング音声認識評価のためのアルゴリズムとツール
- Authors: Oleg Sedukhin, Andrey Kostin,
- Abstract要約: 複数参照ラベリングと任意の長さ挿入の両方をサポートする文字列アライメントアルゴリズムを提案する。
これは特に、リッチな単語形成言語である非ラテン言語において、散文または長文の音声のラベル付けに特に有用である。
我々は,ストリーミング音声認識の評価ツールを開発し,複数の書き起こしを視覚的に比較する。
- 参考スコア(独自算出の注目度): 0.5729426778193398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose several improvements to the speech recognition evaluation. First, we propose a string alignment algorithm that supports both multi-reference labeling, arbitrary-length insertions and better word alignment. This is especially useful for non-Latin languages, those with rich word formation, to label cluttered or longform speech. Secondly, we collect a novel test set DiverseSpeech-Ru of longform in-the-wild Russian speech with careful multi-reference labeling. We also perform multi-reference relabeling of popular Russian tests set and study fine-tuning dynamics on its corresponding train set. We demonstrate that the model often adopts to dataset-specific labeling, causing an illusion of metric improvement. Based on the improved word alignment, we develop tools to evaluate streaming speech recognition and to align multiple transcriptions to compare them visually. Additionally, we provide uniform wrappers for many offline and streaming speech recognition models. Our code will be made publicly available.
- Abstract(参考訳): 音声認識評価におけるいくつかの改善点を提案する。
まず,複数参照ラベリング,任意の長さ挿入,単語アライメントの改善をサポートする文字列アライメントアルゴリズムを提案する。
これは特に、リッチな単語形成言語である非ラテン言語において、散文または長文の音声のラベル付けに特に有用である。
第2に、慎重に多参照ラベル付けした長文ロシア語音声のDiverseSpeech-Ruを新たに収集する。
また、一般的なロシアのテストセットの多重参照レバーベリングを行い、対応する列車セットの微調整ダイナミクスについて研究する。
モデルがデータセット固有のラベル付けによく適用されることを示し、メトリクス改善の錯覚を引き起こす。
改良された単語アライメントに基づいて、ストリーミング音声認識を評価し、複数の書き起こしを視覚的に比較するツールを開発した。
さらに、多くのオフラインおよびストリーミング音声認識モデルに対して均一なラッパーを提供する。
私たちのコードは公開されます。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - DASB -- Discrete Audio and Speech Benchmark [12.02056212008393]
我々は、様々なタスクで離散オーディオトークンをベンチマークするためのリーダーボードである、離散オーディオおよび音声ベンチマーク(DASB)をリリースする。
その結果, 意味トークンは, 識別的, 生成的タスクにおいて, 圧縮トークンよりも優れていた。
しかし、セマンティックトークンと標準的な連続表現の間のパフォーマンスのギャップは依然として大きい。
論文 参考訳(メタデータ) (2024-06-20T13:23:27Z) - Generating Feature Vectors from Phonetic Transcriptions in Cross-Linguistic Data Formats [1.087459729391301]
我々は,CLTS(Cross-Linguistic Transcription Systems)参照カタログによって提案される国際音声アルファベットの標準化版で表現できるすべての音に対して,バイナリ機能を動的に生成する手法を提案する。
我々のシステムは、音声の類似性を比較するための簡単な手段を提供するだけでなく、将来の言語間機械学習アプリケーションで使用される可能性も示している。
論文 参考訳(メタデータ) (2024-05-07T12:40:59Z) - Benchmarking Evaluation Metrics for Code-Switching Automatic Speech
Recognition [19.763431520942028]
本研究では,人間の判断によるコードスイッチング音声認識仮説のベンチマークデータセットを開発する。
自動仮説の最小化のための明確なガイドラインを定義する。
我々は、アラビア語/英語の方言音声におけるコードスイッチング音声認識結果の人間受容のための最初のコーパスをリリースする。
論文 参考訳(メタデータ) (2022-11-22T08:14:07Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。