論文の概要: Hierarchical Conditional End-to-End ASR with CTC and Multi-Granular
Subword Units
- arxiv url: http://arxiv.org/abs/2110.04109v1
- Date: Fri, 8 Oct 2021 13:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 15:03:26.396467
- Title: Hierarchical Conditional End-to-End ASR with CTC and Multi-Granular
Subword Units
- Title(参考訳): CTCと多言語サブワードユニットを用いた階層型条件付き終端ASR
- Authors: Yosuke Higuchi, Keita Karube, Tetsuji Ogawa, Tetsunori Kobayashi
- Abstract要約: エンドツーエンドの自動音声認識では、単語レベルのシーケンスを認識するのに適した表現を暗黙的に学習することが期待される。
接続型時間分類(CTC)に基づく階層型条件付きモデルを提案する。
LibriSpeech-100h, 960h, TEDLium2の実験結果から, 提案モデルが標準CTCモデルよりも改良されていることが示された。
- 参考スコア(独自算出の注目度): 19.668440671541546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In end-to-end automatic speech recognition (ASR), a model is expected to
implicitly learn representations suitable for recognizing a word-level
sequence. However, the huge abstraction gap between input acoustic signals and
output linguistic tokens makes it challenging for a model to learn the
representations. In this work, to promote the word-level representation
learning in end-to-end ASR, we propose a hierarchical conditional model that is
based on connectionist temporal classification (CTC). Our model is trained by
auxiliary CTC losses applied to intermediate layers, where the vocabulary size
of each target subword sequence is gradually increased as the layer becomes
close to the word-level output. Here, we make each level of sequence prediction
explicitly conditioned on the previous sequences predicted at lower levels.
With the proposed approach, we expect the proposed model to learn the
word-level representations effectively by exploiting a hierarchy of linguistic
structures. Experimental results on LibriSpeech-{100h, 960h} and TEDLIUM2
demonstrate that the proposed model improves over a standard CTC-based model
and other competitive models from prior work. We further analyze the results to
confirm the effectiveness of the intended representation learning with our
model.
- Abstract(参考訳): エンドツーエンドの自動音声認識(ASR)では、単語レベルのシーケンスを認識するのに適した表現を暗黙的に学習することが期待される。
しかし、入力音響信号と出力言語トークンの間の大きな抽象的ギャップは、モデルが表現を学習することを困難にしている。
本稿では,エンドツーエンドasrにおける単語レベルの表現学習を促進するために,コネクショニスト時間分類(ctc)に基づく階層型条件モデルを提案する。
我々のモデルは中間層に適用された補助的なCTC損失により訓練され、各サブワード列の語彙サイズは、単語レベルの出力に近づくにつれて徐々に増大する。
ここでは、各列の予測レベルを、下層で予測された前の列に明示的に条件付けする。
提案手法では,言語構造の階層構造を利用して,単語レベルの表現を効果的に学習することが期待できる。
LibriSpeech-{100h, 960h} と TEDLium2 の実験結果から,提案モデルが標準 CTC モデルおよび他の競合モデルよりも先行作業により改善されることが示されている。
さらに,本モデルを用いた表現学習の有効性を確認するために,結果を解析した。
関連論文リスト
- Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Word Sense Induction with Hierarchical Clustering and Mutual Information
Maximization [14.997937028599255]
単語知覚誘導は自然言語処理において難しい問題である。
階層的クラスタリングと不変情報クラスタリングに基づく新しい教師なし手法を提案する。
我々は、ある場合において、我々のアプローチが先行したWSIの最先端手法よりも優れていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-11T13:04:06Z) - Variable-rate hierarchical CPC leads to acoustic unit discovery in
speech [11.641568891561866]
本研究では,複数レベルのコントラスト予測符号化を適用することで,音声の階層的表現の自己教師型学習について検討する。
本稿では,低レベルCPCモジュールの出力が一様でないため,高レベルCPCモジュールの損失を最小化するモデルを提案する。
論文 参考訳(メタデータ) (2022-06-05T16:18:27Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - Augmenting BERT-style Models with Predictive Coding to Improve
Discourse-level Representations [20.855686009404703]
本稿では,予測符号化理論のアイデアを用いて,議論レベルの表現を学習するためのメカニズムによりBERTスタイルの言語モデルを拡張することを提案する。
提案手法は,ネットワークの中間層で動作する明示的なトップダウン接続を用いて,将来の文を予測できる。
論文 参考訳(メタデータ) (2021-09-10T00:45:28Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。