論文の概要: N-gram Boosting: Improving Contextual Biasing with Normalized N-gram
Targets
- arxiv url: http://arxiv.org/abs/2308.02092v1
- Date: Fri, 4 Aug 2023 00:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 14:10:41.669969
- Title: N-gram Boosting: Improving Contextual Biasing with Normalized N-gram
Targets
- Title(参考訳): N-gram Boosting: 正規化N-gramターゲットによるコンテキストバイアスの改善
- Authors: Wang Yau Li, Shreekantha Nadig, Karol Chang, Zafarullah Mahmood,
Riqiang Wang, Simon Vandieken, Jonas Robertson, Fred Mailhot
- Abstract要約: 単一トークンではなく、正規化されたユニグラムとn-グラムで動作する2段階のキーワードブースティング機構を提案する。
これにより、独自のドメイン内データセットに対して26%、LibriSpeechでは2%のキーワード認識率が改善されます。
- 参考スコア(独自算出の注目度): 1.9908600514057855
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate transcription of proper names and technical terms is particularly
important in speech-to-text applications for business conversations. These
words, which are essential to understanding the conversation, are often rare
and therefore likely to be under-represented in text and audio training data,
creating a significant challenge in this domain. We present a two-step keyword
boosting mechanism that successfully works on normalized unigrams and n-grams
rather than just single tokens, which eliminates missing hits issues with
boosting raw targets. In addition, we show how adjusting the boosting weight
logic avoids over-boosting multi-token keywords. This improves our keyword
recognition rate by 26% relative on our proprietary in-domain dataset and 2% on
LibriSpeech. This method is particularly useful on targets that involve
non-alphabetic characters or have non-standard pronunciations.
- Abstract(参考訳): 適切な名前と技術用語の正確な書き起こしは、ビジネス会話の音声からテキストへのアプリケーションにおいて特に重要である。
これらの単語は、会話を理解するのに必須であり、しばしばまれであり、テキストや音声のトレーニングデータに過小に表現されがちであり、この領域では大きな課題となっている。
我々は,単一トークンではなく,正規化ユニグラムとnグラムでうまく機能する2段階のキーワードブースティング機構を提案する。
さらに,重み付けロジックの調整が,マルチトケンキーワードのオーバーブーストを回避する方法を示す。
これにより、独自のドメイン内データセットに対して26%、LibriSpeechでは2%のキーワード認識率が改善されます。
この方法は、非アルファベット文字や非標準発音を含むターゲットに対して特に有用である。
関連論文リスト
- LM-assisted keyword biasing with Aho-Corasick algorithm for Transducer-based ASR [3.841280537264271]
そこで本研究では,音声認識性能向上のためのライトオンザフライ方式を提案する。
我々は、名前付きエンティティのバイアスリストと単語レベルのn-gram言語モデルと、Aho-Corasick文字列マッチングアルゴリズムに基づく浅い融合アプローチを組み合わせる。
逆実時間係数の実用的差のない一般単語誤り率の21.6%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-09-20T13:53:37Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Assessing the Importance of Frequency versus Compositionality for
Subword-based Tokenization in NMT [7.600968522331612]
サブワードトークン化は、ニューラルネットワークモデルと機械翻訳システムにおけるトークン化のデファクトスタンダードである。
3つの利点は、頻繁なトークンの符号化の短縮、サブワードの合成性、未知の単語を扱う能力である。
コンポジション性から周波数を分離できるトークン化手法を提案する。
論文 参考訳(メタデータ) (2023-06-02T09:39:36Z) - Automatic dense annotation of large-vocabulary sign language videos [85.61513254261523]
自動アノテーションの密度を大幅に高めるための,シンプルでスケーラブルなフレームワークを提案する。
これらのアノテーションは手話研究コミュニティをサポートするために公開されています。
論文 参考訳(メタデータ) (2022-08-04T17:55:09Z) - NFLAT: Non-Flat-Lattice Transformer for Chinese Named Entity Recognition [39.308634515653914]
我々は,計算コストとメモリコストを効果的に削減する新しい語彙拡張手法であるInterFormerを提唱する。
FLATと比較して「単語文字」と「単語」の不要な注意計算を減らす
これにより、メモリ使用量が約50%削減され、ネットワークトレーニングのためにより広範なレキシコンやより高いバッチを使用することができる。
論文 参考訳(メタデータ) (2022-05-12T01:55:37Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Spell my name: keyword boosted speech recognition [25.931897154065663]
名前や専門用語のような一般的な言葉は、会話を文脈で理解するのに重要である。
本稿では、これらの非一般的なキーワードをよりよく認識できる、単純だが強力なASR復号法を提案する。
本手法は,音響モデル予測に基づくビームサーチにおいて,与えられたキーワードの確率を高める。
本稿では,本手法の有効性を実世界の会話の内部データとLibriSpeeechテストセットで実証する。
論文 参考訳(メタデータ) (2021-10-06T14:16:57Z) - LadRa-Net: Locally-Aware Dynamic Re-read Attention Net for Sentence
Semantic Matching [66.65398852962177]
文意味マッチングのための新しい動的再読ネットワーク(DRr-Net)を開発した。
DRr-Netをローカルに認識する動的再読み取り注意ネット(LadRa-Net)に拡張する
2つの一般的な文意味マッチングタスクの実験により、DRr-Netは文意味マッチングの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-08-06T02:07:04Z) - Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt
Verbalizer for Text Classification [68.3291372168167]
我々は、外部知識を言語化に取り入れることに集中し、知識に富んだプロンプトチューニング(KPT)を形成する。
我々は,外部知識ベース(KB)を用いてラベル語空間を拡張し,拡張されたラベル語空間で予測する前に PLM 自体で拡張されたラベル語空間を洗練する。
ゼロと少数ショットのテキスト分類タスクの実験は、知識のあるプロンプトチューニングの有効性を示す。
論文 参考訳(メタデータ) (2021-08-04T13:00:16Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。