論文の概要: Do End-to-End Speech Recognition Models Care About Context?
- arxiv url: http://arxiv.org/abs/2102.09928v1
- Date: Wed, 17 Feb 2021 11:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:33:26.661924
- Title: Do End-to-End Speech Recognition Models Care About Context?
- Title(参考訳): エンドツーエンドの音声認識モデルはコンテキストを気にするだろうか?
- Authors: Lasse Borgholt, Jakob Drachmann Havtorn, \v{Z}eljko Agi\'c, Anders
S{\o}gaard, Lars Maal{\o}e, Christian Igel
- Abstract要約: CTCモデルは,WSJ や LibriSpeech に対して,外部言語モデルの助けなしに非常に競争力があることを示す。
従来の研究とは対照的に、CTCモデルは外部言語モデルの助けなしにWSJやLibriSpeechと非常に競合することを示した。
- 参考スコア(独自算出の注目度): 11.602665152704812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The two most common paradigms for end-to-end speech recognition are
connectionist temporal classification (CTC) and attention-based encoder-decoder
(AED) models. It has been argued that the latter is better suited for learning
an implicit language model. We test this hypothesis by measuring temporal
context sensitivity and evaluate how the models perform when we constrain the
amount of contextual information in the audio input. We find that the AED model
is indeed more context sensitive, but that the gap can be closed by adding
self-attention to the CTC model. Furthermore, the two models perform similarly
when contextual information is constrained. Finally, in contrast to previous
research, our results show that the CTC model is highly competitive on WSJ and
LibriSpeech without the help of an external language model.
- Abstract(参考訳): エンドツーエンド音声認識の最も一般的なパラダイムは、コネクショニスト時間分類(CTC)とアテンションベースのエンコーダデコーダ(AED)モデルである。
後者は暗黙の言語モデルを学ぶのに適していると論じられている。
この仮説を時間的コンテキスト感度の測定によって検証し、オーディオ入力におけるコンテキスト情報の量を制限する際にモデルがどのように機能するかを評価します。
AEDモデルの方がコンテキストに敏感であることは明らかだが,CTCモデルに自己注意を加えることで,そのギャップを埋めることができる。
さらに、文脈情報が制約された場合にも同様に2つのモデルが機能する。
最後に, 従来の研究とは対照的に, CTCモデルは外部言語モデルの助けなしに, WSJ や LibriSpeech に対して高い競争力を持つことを示す。
関連論文リスト
- On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - A comparison of self-supervised speech representations as input features
for unsupervised acoustic word embeddings [32.59716743279858]
私たちは、短い時間枠レベルで表現学習を見ます。
最近のアプローチには、自己監視型予測符号化および対応オートエンコーダ(CAE)モデルが含まれる。
コントラスト予測符号化(CPC)、オートレグレッシブ予測符号化、CAEなどのフレームレベルの特徴を従来のMFCCと比較します。
論文 参考訳(メタデータ) (2020-12-14T10:17:25Z) - End-to-End Spoken Language Understanding Without Full Transcripts [38.19173637496798]
音声入力を直接意味的エンティティに変換するエンド・ツー・エンド(E2E)音声言語理解システムを開発した。
CTCモデルとアテンションベースのエンコーダ・デコーダモデルという2つのタイプを作成した。
ATISコーパスにおける発話・発話実験では、CTCとアテンションモデルの両方が、非発話語をスキップする印象的な能力を示した。
論文 参考訳(メタデータ) (2020-09-30T01:54:13Z) - Using Human Psychophysics to Evaluate Generalization in Scene Text
Recognition Models [7.294729862905325]
我々は2つの重要なシーンテキスト認識モデルを,その領域を計測することで特徴付ける。
ドメインは、読み手が様々な単語の長さ、フォント、閉塞量に一般化する能力を指定する。
論文 参考訳(メタデータ) (2020-06-30T19:51:26Z) - Labeling Explicit Discourse Relations using Pre-trained Language Models [0.0]
最先端のモデルは手作りの機能を使ってFスコアの45%をわずかに上回っている。
事前訓練された言語モデルは、微調整された場合、言語的特徴を置き換えるのに十分強力であることがわかった。
言語的な特徴を使わずに、モデルが知識集約型モデルより優れているのは、これが初めてである。
論文 参考訳(メタデータ) (2020-06-21T17:18:01Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。