論文の概要: Improving CTC-based ASR Models with Gated Interlayer Collaboration
- arxiv url: http://arxiv.org/abs/2205.12462v1
- Date: Wed, 25 May 2022 03:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 15:06:25.368180
- Title: Improving CTC-based ASR Models with Gated Interlayer Collaboration
- Title(参考訳): Gated Interlayer CollaborationによるCTCに基づくASRモデルの改良
- Authors: Yuting Yang, Yuke Li, Binbin Du
- Abstract要約: 本稿では,モデルにコンテキスト情報を導入するGated Interlayer Collaboration機構を提案する。
我々は,中間層の確率分布がソフトラベル配列として自然に機能するモデルの層間出力によって計算された中間CTC損失でモデルを訓練する。
- 参考スコア(独自算出の注目度): 9.930655347717932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For Automatic Speech Recognition (ASR), the CTC-based methods have become a
dominant paradigm due to its simple architecture and efficient
non-autoregressive inference manner. However, these methods without external
language models usually lack the capacity of modeling the conditional
dependencies and the textual interaction. In this work, we present a Gated
Interlayer Collaboration (GIC) mechanism which introduces the contextual
information into the models and relaxes the conditional independence assumption
of the CTC-based models. Specifically, we train the model with intermediate CTC
losses calculated by the interlayer outputs of the model, in which the
probability distributions of the intermediate layers naturally serve as soft
label sequences. The GIC block consists of an embedding layer to obtain the
textual embedding of the soft label at each position, and a gate unit to fuse
the textual embedding and the acoustic features. Experiments on AISHELL-1 and
AIDATATANG benchmarks show that the proposed method outperforms the recently
published CTC-based ASR models. Specifically, our method achieves CER of
4.0%/4.4% on AISHELL-1 dev/test sets and CER of 3.8%/4.4% on AIDATATANG
dev/test sets using CTC greedy search decoding without external language
models.
- Abstract(参考訳): 自動音声認識 (asr) では,ctcに基づく手法が,単純なアーキテクチャと効率的な非回帰推論手法により主流となっている。
しかしながら、外部言語モデルを持たないこれらの手法は、条件付き依存関係とテキストの相互作用をモデル化する能力に欠ける。
本稿では,ctcに基づくモデルの条件付き独立性仮定を緩和し,文脈情報をモデルに導入するゲート型層間協調(gic)機構を提案する。
具体的には、中間層の確率分布がソフトラベル配列として自然に機能するモデルの層間出力によって計算された中間CTC損失でモデルを訓練する。
GICブロックは、各位置におけるソフトラベルのテキスト埋め込みを得る埋め込み層と、テキスト埋め込みと音響特徴とを融合させるゲートユニットとから構成される。
AISHELL-1 と AIDATATANG のベンチマーク実験により,提案手法が最近発表された CTC ベースの ASR モデルより優れていることが示された。
具体的には,aishell-1開発/テストセットで4.0%/4.4%,外部言語モデル無しでctc greedy searchデコードを用いてaidatatang開発/テストセットで3.8%/4.4%のcerを実現する。
関連論文リスト
- Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Mask The Bias: Improving Domain-Adaptive Generalization of CTC-based ASR
with Internal Language Model Estimation [14.840612036671734]
自己回帰モデルに対するこのバイアスを軽減するために、内部言語モデル推定(ILME)が提案されている。
CTCに基づくASRモデルのための新しいILME手法を提案する。
本手法は、内部LMの擬似ログ類似度を推定するために、音声タイムステップを反復的にマスクする。
論文 参考訳(メタデータ) (2023-05-05T20:35:42Z) - InterMPL: Momentum Pseudo-Labeling with Intermediate CTC Loss [43.39035144463951]
Momentum PL (MPL) は、ラベルのないデータに基づいてコネクショニスト時間分類 (CTC) に基づくモデルを訓練する。
CTCは、単純かつ高速な推論アルゴリズムと崩壊ラベルの生成に対する堅牢性のため、MPLやPLベースの半教師付きASRによく適している。
CTCに基づくモデリングの最近の進歩に触発されて、中間損失を導入し、MPLを強化することを提案する。
論文 参考訳(メタデータ) (2022-11-02T00:18:25Z) - Improving CTC-based speech recognition via knowledge transferring from
pre-trained language models [30.599901925058873]
CTCに基づくモデルを改善するために,2つの知識伝達手法を提案する。
最初の方法は表現学習に基づいており、CTCベースのモデルはBERTが生成した表現を補助的学習ターゲットとして利用する。
第2の方法は、テキストモデリングのためのGPT2とハイブリッドCTC/アテンションアーキテクチャを組み合わせた共同分類学習に基づいている。
論文 参考訳(メタデータ) (2022-02-22T11:30:55Z) - Relaxing the Conditional Independence Assumption of CTC-based ASR by
Conditioning on Intermediate Predictions [14.376418789524783]
我々は,最終層におけるCTC損失に加えて,中間層におけるCTC損失を補助するCTCベースのASRモデルを訓練する。
提案手法は実装が容易で,単純なモデルアーキテクチャと高速復号化速度という,CTCベースのASRの利点を保っている。
論文 参考訳(メタデータ) (2021-04-06T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。