論文の概要: Improving End-to-End Contextual Speech Recognition with Fine-grained
Contextual Knowledge Selection
- arxiv url: http://arxiv.org/abs/2201.12806v1
- Date: Sun, 30 Jan 2022 13:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 15:19:27.687981
- Title: Improving End-to-End Contextual Speech Recognition with Fine-grained
Contextual Knowledge Selection
- Title(参考訳): きめ細かい文脈知識選択によるエンドツーエンド音声認識の改善
- Authors: Minglun Han, Linhao Dong, Zhenlin Liang, Meng Cai, Shiyu Zhou, Zejun
Ma, Bo Xu
- Abstract要約: 本研究は,微粒な文脈知識選択(FineCoS)による混乱問題の緩和に焦点をあてる。
まず,句候補の範囲を狭めるために句選択を適用し,選択した句候補のトークンにトークンの注意を向ける。
我々は、より焦点を絞ったフレーズレベルの文脈表現を得るために、最も関連性の高いフレーズの注意重みを再正規化する。
- 参考スコア(独自算出の注目度): 21.116123328330467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, most methods in end-to-end contextual speech recognition bias the
recognition process towards contextual knowledge. Since all-neural contextual
biasing methods rely on phrase-level contextual modeling and attention-based
relevance modeling, they may encounter confusion between similar
context-specific phrases, which hurts predictions at the token level. In this
work, we focus on mitigating confusion problems with fine-grained contextual
knowledge selection (FineCoS). In FineCoS, we introduce fine-grained knowledge
to reduce the uncertainty of token predictions. Specifically, we first apply
phrase selection to narrow the range of phrase candidates, and then conduct
token attention on the tokens in the selected phrase candidates. Moreover, we
re-normalize the attention weights of most relevant phrases in inference to
obtain more focused phrase-level contextual representations, and inject
position information to better discriminate phrases or tokens. On LibriSpeech
and an in-house 160,000-hour dataset, we explore the proposed methods based on
a controllable all-neural biasing method, collaborative decoding (ColDec). The
proposed methods provide at most 6.1% relative word error rate reduction on
LibriSpeech and 16.4% relative character error rate reduction on the in-house
dataset over ColDec.
- Abstract(参考訳): 今日、エンド・ツー・エンドの文脈認識におけるほとんどの方法は、文脈知識に対する認識プロセスをバイアスしている。
all-neural context biasing methodはフレーズレベルのコンテキストモデリングと注意に基づく関連モデリングに依存しているため、類似したコンテキスト固有のフレーズ間の混乱に遭遇する可能性があり、トークンレベルでの予測を損なう。
本研究では,細粒度文脈知識選択(finecos)による混乱問題の軽減に焦点をあてる。
FineCoSでは,トークン予測の不確実性を低減するために,きめ細かい知識を導入する。
具体的には,まず,句候補の範囲を狭めるために句選択を適用し,選択した句候補のトークンにトークンの注意を向ける。
さらに,多くの関連する句の注意重みを推論において再正規化し,より焦点を絞った句レベルの文脈表現を得るとともに,句やトークンをより識別するために位置情報を注入する。
librispeechと社内の160,000時間データセットについて,制御可能な全神経バイアス法であるcollaborative decoding(coldec)に基づいて提案手法を検討する。
提案手法は、少なくとも6.1%の単語誤り率をLibriSpeechで削減し、16.4%の文字誤り率をColDec上の社内データセットで削減する。
関連論文リスト
- Contextualized End-to-end Automatic Speech Recognition with Intermediate Biasing Loss [44.94458898538114]
エンコーダ中間層における補助的なタスクとして明示的なバイアス損失を使用することで、テキストトークンやオーディオフレームを望ましい目的と整合させることができる。
提案する中間バイアス損失は,ネットワークにより規則化と文脈化をもたらす。
論文 参考訳(メタデータ) (2024-06-23T14:22:59Z) - Contextualized Automatic Speech Recognition with Attention-Based Bias
Phrase Boosted Beam Search [44.94458898538114]
本稿では、編集可能なフレーズリストを用いてカスタマイズ可能な、注意に基づくコンテキストバイアス手法を提案する。
提案手法は、入力音声データ中のバイアスフレーズを検出するために、バイアスフレーズインデックス損失と特別なトークンを組み合わせることで効果的に訓練することができる。
論文 参考訳(メタデータ) (2024-01-19T01:36:07Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - Contextualized End-to-End Speech Recognition with Contextual Phrase
Prediction Network [14.115294331065318]
本稿では,注目に基づくディープバイアス手法のための文脈的フレーズ予測ネットワークを提案する。
このネットワークは、文脈埋め込みを用いて発話中の文脈句を予測し、バイアス損失を計算し、文脈化されたモデルの訓練を支援する。
提案手法は,様々なエンドツーエンド音声認識モデルにおいて,単語誤り率 (WER) の低減を実現した。
論文 参考訳(メタデータ) (2023-05-21T16:08:04Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Improving Machine Reading Comprehension with Contextualized Commonsense
Knowledge [62.46091695615262]
我々は、機械読解の理解を改善するために、常識知識を抽出することを目指している。
構造化知識を文脈内に配置することで,関係を暗黙的に表現することを提案する。
我々は,教師の学習パラダイムを用いて,複数種類の文脈的知識を学生機械読取機に注入する。
論文 参考訳(メタデータ) (2020-09-12T17:20:01Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。