論文の概要: CIF-based Collaborative Decoding for End-to-end Contextual Speech
Recognition
- arxiv url: http://arxiv.org/abs/2012.09466v2
- Date: Thu, 18 Feb 2021 07:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:41:11.753572
- Title: CIF-based Collaborative Decoding for End-to-end Contextual Speech
Recognition
- Title(参考訳): コンテクスト音声認識のためのcifに基づく協調復号化
- Authors: Minglun Han and Linhao Dong and Shiyu Zhou and Bo Xu
- Abstract要約: コンテキストバイアスをより制御可能な方法でサポートするCIF(Continuous Integration-and-fire)ベースのモデルを提案する。
追加のコンテキスト処理ネットワークを導入し、コンテキスト埋め込みを抽出し、音響的に関連するコンテキスト情報を統合し、コンテキスト出力分布をデコードする。
提案手法は, 強ベースラインと比較して, 相対的文字誤り率 (CER) の8.83%/21.13%, 相対的名前付きエンティティ文字誤り率 (NE-CER) の40.14%/51.50%削減を実現する。
- 参考スコア(独自算出の注目度): 14.815422751109061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) models have achieved promising results on multiple speech
recognition benchmarks, and shown the potential to become the mainstream.
However, the unified structure and the E2E training hamper injecting contextual
information into them for contextual biasing. Though contextual LAS (CLAS)
gives an excellent all-neural solution, the degree of biasing to given context
information is not explicitly controllable. In this paper, we focus on
incorporating context information into the continuous integrate-and-fire (CIF)
based model that supports contextual biasing in a more controllable fashion.
Specifically, an extra context processing network is introduced to extract
contextual embeddings, integrate acoustically relevant context information and
decode the contextual output distribution, thus forming a collaborative
decoding with the decoder of the CIF-based model. Evaluated on the named entity
rich evaluation sets of HKUST/AISHELL-2, our method brings relative character
error rate (CER) reduction of 8.83%/21.13% and relative named entity character
error rate (NE-CER) reduction of 40.14%/51.50% when compared with a strong
baseline. Besides, it keeps the performance on original evaluation set without
degradation.
- Abstract(参考訳): エンドツーエンド(E2E)モデルは、複数の音声認識ベンチマークで有望な結果を達成し、主流になる可能性を示している。
しかし、統合構造とE2Eトレーニングは、コンテキストバイアスのためにコンテキスト情報を注入するのを妨げる。
文脈的LAS(CLAS)は優れた全神経解を与えるが、与えられた文脈情報に対するバイアスの度合いは明示的に制御できない。
本稿では,より制御可能な方法でコンテキストバイアスをサポートするcif(continuous integrated-and-fire)ベースのモデルに,コンテキスト情報を組み込むことに着目する。
具体的には、コンテキスト埋め込みを抽出し、音響的に関連したコンテキスト情報を統合し、コンテキスト出力分布をデコードし、cifベースのモデルのデコーダと協調的にデコードする追加コンテキスト処理ネットワークを導入する。
HKUST/AISHELL-2の名前付きエンティティリッチ評価セットを評価したところ、強いベースラインと比較すると、CERが8.83%/21.13%、NE-CERが40.14%/51.50%減少することがわかった。
また、元の評価セットのパフォーマンスを劣化することなく維持する。
関連論文リスト
- Deep CLAS: Deep Contextual Listen, Attend and Spell [18.716477027977525]
CLAS(Contextual-LAS)は,まれな単語の自動音声認識の改善に有効であることが示されている。
本研究では,文脈情報をよりよく利用するための深層CLASを提案する。
論文 参考訳(メタデータ) (2024-09-26T07:40:03Z) - Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation [27.057810339120664]
文脈認識型ASRモデルを改善するための2つの手法を提案する。
LibriSpeechでは, バイアスや浅い融合に比べて, 単語誤り率を60%, 25%削減する。
SPGISpeechと実世界のデータセットConECでは、ベースラインよりも優れた改善が得られます。
論文 参考訳(メタデータ) (2024-07-14T19:32:33Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Two Stage Contextual Word Filtering for Context bias in Unified
Streaming and Non-streaming Transducer [17.835882045443896]
E2E ASRシステムでは、トレーニングデータに頻繁に現れるエンティティなどの単語を認識することは困難である。
本稿では,ストリーミングとストリーミングを併用したE2Eモデルに対して,高品質なコンテキストリストを得るための効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-01-17T07:29:26Z) - Contextual information integration for stance detection via
cross-attention [59.662413798388485]
スタンス検出は、著者の目標に対する姿勢を特定することを扱う。
既存のスタンス検出モデルの多くは、関連するコンテキスト情報を考慮していないため、制限されている。
文脈情報をテキストとして統合する手法を提案する。
論文 参考訳(メタデータ) (2022-11-03T15:04:29Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。