論文の概要: A Calculus-Based Framework for Determining Vocabulary Size in End-to-End ASR
- arxiv url: http://arxiv.org/abs/2605.14427v1
- Date: Thu, 14 May 2026 06:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.658053
- Title: A Calculus-Based Framework for Determining Vocabulary Size in End-to-End ASR
- Title(参考訳): エンドツーエンドASRにおける語彙サイズ決定のための計算ベースフレームワーク
- Authors: Sunil Kumar Kopparapu,
- Abstract要約: ハイブリッド自動音声認識システムでは、語彙サイズは、言語に含まれる電話、バイフォン、トリホンの数によって決定される。
対照的に、エンドツーエンドのASRシステムは、しばしば訓練に使用されるテキストコーパスからトークンと呼ばれる語彙から派生している。
- 参考スコア(独自算出の注目度): 5.286244385413773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In hybrid automatic speech recognition (ASR) systems, the vocabulary size is unambiguous, typically determined by the number of phones, bi-phones, or tri-phones present in the language. In contrast, end-to-end ASR systems derive their vocabulary, often referred to as tokens from the text corpus used for training. The choice and, more importantly, the size of this vocabulary is a critical hyper-parameter in training end-to-end ASR systems. Tokenization algorithms such as Byte Pair Encoding (BPE), WordPiece, and Unigram Language Model (ULM) use the vocabulary size as an input hyper-parameter to generate the sub-words employed during ASR training. Popular toolkits like ESPNet provide a fixed vocabulary size in their training recipes, but there is little documentation or discussion in the literature regarding how these values are determined. Recent work [1] has formalized an approach to identify the vocabulary size best suited for end-to-end ASR, introducing a cost function framework that treats the tokenization process as a black box. In this paper, we build upon that foundation by curve fitting the training data and using the principle of first and second derivative tests in calculus to formally estimate the vocabulary size hyper-parameter. We demonstrate the utility and usefulness of our approach by applying it on a standard Librispeech corpus and show that the optimal choice of vocabulary size hyper-parameter improves the performance of the ASR. The main contribution of this paper in formalizing an approach to identify the vocabulary size best suited for training an end-to-end ASR system.
- Abstract(参考訳): ハイブリッド自動音声認識(ASR)システムでは、語彙サイズは曖昧であり、通常、言語に含まれる電話、バイフォン、トリホンの数によって決定される。
対照的に、エンドツーエンドのASRシステムは、しばしば訓練に使用されるテキストコーパスからトークンと呼ばれる語彙から派生している。
さらに重要なことは、この語彙のサイズは、エンドツーエンドのASRシステムのトレーニングにおいて重要なハイパーパラメータであるということだ。
BPE(Byte Pair Encoding)、WordPiece(WordPiece)、Unigram Language Model(Unigram Language Model)などのトークン化アルゴリズムは、入力ハイパーパラメータとして語彙サイズを用いて、ASRトレーニング中に使用されるサブワードを生成する。
ESPNetのような一般的なツールキットは、トレーニングレシピに一定の語彙サイズを提供するが、これらの値がどのように決定されるかに関する文献でのドキュメントや議論はほとんどない。
最近の研究[1]は、トークン化プロセスをブラックボックスとして扱うコスト関数フレームワークを導入し、エンドツーエンドのASRに適した語彙サイズを特定するためのアプローチを形式化した。
本稿では,この基礎を,トレーニングデータを曲線に適合させて構築し,第1および第2微分テストの原理を用いて,語彙サイズハイパーパラメータを公式に推定する。
標準のLibrispeechコーパスに適用することで,我々のアプローチの有用性と有用性を実証し,語彙サイズハイパーパラメータの最適選択がASRの性能を向上させることを示す。
本論文の主な貢献は、エンドツーエンドのASRシステムのトレーニングに適した語彙サイズを特定するためのアプローチの形式化である。
関連論文リスト
- AdaptBPE: From General Purpose to Specialized Tokenizers [18.70903226766322]
適応コーパスの周波数に基づいて,低ユーティリティトークンをより関連性の高いトークンに選択的に置き換えるポストトレーニング適応戦略を提案する。
提案アルゴリズムは,目的語彙の適応コーパスを最も効果的に符号化したトークンの在庫を特定する。
この方法は、語彙の微調整プロセスに似た軽量な適応機構として機能し、特定のドメインやタスクに対して最適化されたトークン化を可能にする。
論文 参考訳(メタデータ) (2026-01-29T12:59:40Z) - A cost minimization approach to fix the vocabulary size in a tokenizer for an End-to-End ASR system [10.70500939394669]
Byte Pair Piece(BPE)やWordPieceのようなトークン化アルゴリズムは、音声認識システムの全体的なトレーニングプロセスで使用されるトークンを特定するのに人気がある。
LibriSpeech 100 時間セットの実験を通して,トークンの数を慎重に選択することで,エンドツーエンドの ASR システムの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-29T12:16:21Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Tree-constrained Pointer Generator for End-to-end Contextual Speech
Recognition [16.160767678589895]
TCPGenは、アテンションベースのエンコーダデコーダとトランスデューサエンドツーエンドのASRモデルの両方に偏りのある単語のリストのような知識を組み込む。
TCPGenは、バイアスワードを効率的なプレフィックスツリーに構造化し、そのシンボル入力として機能し、デコード中のバイアスワードの認識を容易にするニューラルネットワークショートカットを生成する。
論文 参考訳(メタデータ) (2021-09-01T21:41:59Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。