論文の概要: A context-aware knowledge transferring strategy for CTC-based ASR
- arxiv url: http://arxiv.org/abs/2210.06244v1
- Date: Wed, 12 Oct 2022 14:31:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 15:41:42.596132
- Title: A context-aware knowledge transferring strategy for CTC-based ASR
- Title(参考訳): CTCに基づくASRのための文脈認識型知識伝達戦略
- Authors: Ke-Han Lu, Kuan-Yu Chen
- Abstract要約: 接続性時間分類(CTC)に基づく手法は依然として支配的ストリームである。
CTCベースのASRのための知識伝達モジュールと文脈認識学習戦略からなる文脈認識型知識伝達戦略を提案する。
本稿では,wav2vec2.0上に構築された知識注入型CTCベースのASRについて述べる。
- 参考スコア(独自算出の注目度): 9.500518278458905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive automatic speech recognition (ASR) modeling has received
increasing attention recently because of its fast decoding speed and superior
performance. Among representatives, methods based on the connectionist temporal
classification (CTC) are still a dominating stream. However, the theoretically
inherent flaw, the assumption of independence between tokens, creates a
performance barrier for the school of works. To mitigate the challenge, we
propose a context-aware knowledge transferring strategy, consisting of a
knowledge transferring module and a context-aware training strategy, for
CTC-based ASR. The former is designed to distill linguistic information from a
pre-trained language model, and the latter is framed to modulate the
limitations caused by the conditional independence assumption. As a result, a
knowledge-injected context-aware CTC-based ASR built upon the wav2vec2.0 is
presented in this paper. A series of experiments on the AISHELL-1 and AISHELL-2
datasets demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): 非自己回帰自動音声認識(ASR)モデリングは、高速な復号化速度と優れた性能のため、近年注目を集めている。
代表者の中で、コネクショニスト時間分類(CTC)に基づく手法は依然として支配的ストリームである。
しかし、理論的に本質的な欠陥、トークン間の独立性の仮定は、作品の分野におけるパフォーマンスの障壁を生み出している。
この課題を軽減するため,CTCベースのASRのための知識伝達モジュールと文脈認識学習戦略からなる文脈認識型知識伝達戦略を提案する。
前者は事前訓練された言語モデルから言語情報を抽出し,後者は条件付き独立仮定による制約を修飾する。
その結果,wav2vec2.0上に構築された知識注入型CTCベースのASRについて述べる。
AISHELL-1とAISHELL-2データセットに関する一連の実験は、提案手法の有効性を実証している。
関連論文リスト
- CTINEXUS: Leveraging Optimized LLM In-Context Learning for Constructing Cybersecurity Knowledge Graphs Under Data Scarcity [49.657358248788945]
サイバー脅威インテリジェンス(CTI)レポートのテキスト記述は、サイバー脅威に関する豊富な知識源である。
現在のCTI抽出法は柔軟性と一般化性に欠けており、しばしば不正確で不完全な知識抽出をもたらす。
CTINexusは,大規模言語モデルのテキスト内学習(ICL)を最適化した新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-28T14:18:32Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Causal Semantic Communication for Digital Twins: A Generalizable
Imitation Learning Approach [74.25870052841226]
デジタルツイン(DT)は、物理世界の仮想表現と通信(例えば6G)、コンピュータ、人工知能(AI)技術を活用して、多くの接続されたインテリジェンスサービスを実現する。
無線システムは、厳密な通信制約下での情報意思決定を容易にするために意味コミュニケーション(SC)のパラダイムを利用することができる。
DTベースの無線システムでは,因果意味通信(CSC)と呼ばれる新しいフレームワークが提案されている。
論文 参考訳(メタデータ) (2023-04-25T00:15:00Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Distilling the Knowledge of BERT for CTC-based ASR [38.345330002791606]
CTCに基づくASRのためのBERTの知識を抽出することを提案する。
CTCベースのASRは、トレーニング中にBERTの知識を学び、テスト中にBERTを使用しない。
提案手法は,推論速度を犠牲にすることなく,CTCに基づくASRの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-09-05T16:08:35Z) - The THUEE System Description for the IARPA OpenASR21 Challenge [12.458730613670316]
本稿では,IARPAオープン音声認識チャレンジ(OpenASR21)におけるTHUEEチームの音声認識システムについて述べる。
制約条件と制約条件の双方で優れた結果が得られた。
エンコーダ/デコーダに基づくCTC/Attention ASRアーキテクチャにwav2vec2.0事前学習モデルを適用する際には,特徴抽出器が重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-06-29T14:03:05Z) - Model-based Deep Learning Receiver Design for Rate-Splitting Multiple
Access [65.21117658030235]
本研究では,モデルベース深層学習(MBDL)に基づく実用的なRSMA受信機の設計を提案する。
MBDL受信機は、符号なしシンボル誤り率(SER)、リンクレベルシミュレーション(LLS)によるスループット性能、平均トレーニングオーバーヘッドの観点から評価される。
その結果,MBDLはCSIRが不完全なSIC受信機よりも優れていた。
論文 参考訳(メタデータ) (2022-05-02T12:23:55Z) - Improving CTC-based speech recognition via knowledge transferring from
pre-trained language models [30.599901925058873]
CTCに基づくモデルを改善するために,2つの知識伝達手法を提案する。
最初の方法は表現学習に基づいており、CTCベースのモデルはBERTが生成した表現を補助的学習ターゲットとして利用する。
第2の方法は、テキストモデリングのためのGPT2とハイブリッドCTC/アテンションアーキテクチャを組み合わせた共同分類学習に基づいている。
論文 参考訳(メタデータ) (2022-02-22T11:30:55Z) - Relaxing the Conditional Independence Assumption of CTC-based ASR by
Conditioning on Intermediate Predictions [14.376418789524783]
我々は,最終層におけるCTC損失に加えて,中間層におけるCTC損失を補助するCTCベースのASRモデルを訓練する。
提案手法は実装が容易で,単純なモデルアーキテクチャと高速復号化速度という,CTCベースのASRの利点を保っている。
論文 参考訳(メタデータ) (2021-04-06T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。