論文の概要: DYNAC: Dynamic Vocabulary based Non-Autoregressive Contextualization for Speech Recognition
- arxiv url: http://arxiv.org/abs/2506.00422v1
- Date: Sat, 31 May 2025 06:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.986933
- Title: DYNAC: Dynamic Vocabulary based Non-Autoregressive Contextualization for Speech Recognition
- Title(参考訳): DYNAC:動的語彙に基づく音声認識のための非自己回帰的文脈化
- Authors: Yui Sudo, Yosuke Fukumoto, Muhammad Shakeel, Yifan Peng, Chyi-Jiunn Lin, Shinji Watanabe,
- Abstract要約: CB (Contextual biasing) は、まれなフレーズと見えないフレーズの自動音声認識を改善する。
近年、動的語彙を導入し、文脈句を自己回帰(AR)モデルで拡張可能なトークンとして表現している。
本稿では動的語彙を中間層に統合する自己条件付きCTC法であるDYNACを提案する。
- 参考スコア(独自算出の注目度): 40.3155669350442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual biasing (CB) improves automatic speech recognition for rare and unseen phrases. Recent studies have introduced dynamic vocabulary, which represents context phrases as expandable tokens in autoregressive (AR) models. This method improves CB accuracy but with slow inference speed. While dynamic vocabulary can be applied to non-autoregressive (NAR) models, such as connectionist temporal classification (CTC), the conditional independence assumption fails to capture dependencies between static and dynamic tokens. This paper proposes DYNAC (Dynamic Vocabulary-based NAR Contextualization), a self-conditioned CTC method that integrates dynamic vocabulary into intermediate layers. Conditioning the encoder on dynamic vocabulary, DYNAC effectively captures dependencies between static and dynamic tokens while reducing the real-time factor (RTF). Experimental results show that DYNAC reduces RTF by 81% with a 0.1-point degradation in word error rate on the LibriSpeech 960 test-clean set.
- Abstract(参考訳): CB (Contextual biasing) は、まれなフレーズと見えないフレーズの自動音声認識を改善する。
近年、動的語彙を導入し、文脈句を自己回帰(AR)モデルで拡張可能なトークンとして表現している。
この方法はCB精度を向上するが、推論速度は遅い。
動的語彙はコネクショニスト時間分類(CTC)のような非自己回帰(NAR)モデルに適用できるが、条件付き独立仮定は静的トークンと動的トークンの間の依存関係をキャプチャできない。
本稿では,動的語彙を中間層に統合する自己条件付きCTC手法であるDYNAC(Dynamic Vocabulary-based NAR Contextualization)を提案する。
エンコーダを動的語彙に条件付けすることで、DYNACはリアルタイム係数(RTF)を低減しつつ、静的トークンと動的トークン間の依存関係を効果的にキャプチャする。
実験の結果, DYNACは, LibriSpeech 960テストクリーンセット上での単語誤り率を0.1ポイント低下させ, RTFを81%減少させることがわかった。
関連論文リスト
- WCTC-Biasing: Retraining-free Contextual Biasing ASR with Wildcard CTC-based Keyword Spotting and Inter-layer Biasing [5.50485371072671]
そこで本研究では,CTCに基づくモデルにおけるレアワードの認識精度を,追加の訓練やテキスト音声システムなしで向上させる手法を提案する。
キーワード検出には,高速かつ不明瞭な一致に寛容なワイルドカードCTCを採用する。
日本語音声認識の実験では,未知語に対するF1スコアが29%向上した。
論文 参考訳(メタデータ) (2025-06-02T02:30:26Z) - Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices [8.77712061194924]
本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。
本アルゴリズムは,単語から音素への変換を直接行うため,明示的な単語表現を避けることができる。
文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。
論文 参考訳(メタデータ) (2024-09-24T21:42:25Z) - Contrastive and Consistency Learning for Neural Noisy-Channel Model in Spoken Language Understanding [1.07288078404291]
音声認識(ASR)に基づく自然言語理解手法を提案する。
ASRエラーによる書き起こしの不整合を処理するため,ノイズチャネルモデルの改良を行った。
4つのベンチマークデータセットの実験は、Contrastive and Consistency Learning (CCL)が既存のメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-23T23:10:23Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - A CTC Alignment-based Non-autoregressive Transformer for End-to-end
Automatic Speech Recognition [26.79184118279807]
CTCアライメントに基づく一段非自己回帰変換器(CASS-NAT)をエンドツーエンドASRに適用する。
自己回帰変換器(AT)への単語埋め込みは、エンコーダ出力から抽出されたトークンレベルの音響埋め込み(TAE)で代用される。
我々は,CASS-NAT が様々な ASR タスクにおいて AT に近い WER を持ち,24 倍の推論速度を提供することを発見した。
論文 参考訳(メタデータ) (2023-04-15T18:34:29Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - Investigating the Reordering Capability in CTC-based Non-Autoregressive
End-to-End Speech Translation [62.943925893616196]
接続型時間分類(CTC)を用いた非回帰型音声-テキスト翻訳モデルの構築の可能性について検討する。
CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。
解析の結果、トランスフォーマーエンコーダは単語の順序を変えることができることがわかった。
論文 参考訳(メタデータ) (2021-05-11T07:48:45Z) - Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning [46.060954649681385]
新たな訓練パラダイムを持つ非自己回帰的画像キャプションモデル: 対実的クリティカルなマルチエージェント学習(CMAL)を提案する。
我々のNAICモデルは、最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。