論文の概要: Sentence-Select: Large-Scale Language Model Data Selection for Rare-Word
Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.05008v1
- Date: Wed, 9 Mar 2022 19:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 13:39:41.968575
- Title: Sentence-Select: Large-Scale Language Model Data Selection for Rare-Word
Speech Recognition
- Title(参考訳): 文選択:音声認識のための大規模言語モデルデータ選択
- Authors: W. Ronny Huang, Cal Peyser, Tara N. Sainath, Ruoming Pang, Trevor
Strohman, Shankar Kumar
- Abstract要約: 言語モデル融合は、音声データでは稀だがテキストのみのコーパスでは豊富である単語を認識するのに役立つ。
言語モデリングデータを選択するための3つの簡単な戦略は、全体的な性能を損なうことなく、レアワード認識を大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 46.00945749348619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model fusion helps smart assistants recognize words which are rare
in acoustic data but abundant in text-only corpora (typed search logs).
However, such corpora have properties that hinder downstream performance,
including being (1) too large, (2) beset with domain-mismatched content, and
(3) heavy-headed rather than heavy-tailed (excessively many duplicate search
queries such as "weather"). We show that three simple strategies for selecting
language modeling data can dramatically improve rare-word recognition without
harming overall performance. First, to address the heavy-headedness, we
downsample the data according to a soft log function, which tunably reduces
high frequency (head) sentences. Second, to encourage rare-word exposure, we
explicitly filter for words rare in the acoustic data. Finally, we tackle
domain-mismatch via perplexity-based contrastive selection, filtering for
examples matched to the target domain. We down-select a large corpus of web
search queries by a factor of 53x and achieve better LM perplexities than
without down-selection. When shallow-fused with a state-of-the-art, production
speech engine, our LM achieves WER reductions of up to 24% relative on
rare-word sentences (without changing overall WER) compared to a baseline LM
trained on the raw corpus. These gains are further validated through favorable
side-by-side evaluations on live voice search traffic.
- Abstract(参考訳): 言語モデル融合は、音声データでは稀だがテキストのみのコーパス(型付き検索ログ)で豊富な単語を認識するのに役立つ。
しかし、そのようなコーパスは、(1)大きすぎる、(2)ドメインミスしたコンテンツに富む、(3)大きすぎる("weather"のような重複検索クエリが多すぎる)といった下流のパフォーマンスを妨げる特性を持っている。
言語モデリングデータを選択するための3つの簡単な戦略は、全体的な性能を損なうことなく、レアワード認識を大幅に改善できることを示す。
まず、重みに対処するため、ソフトログ機能に従ってデータをダウンサンプリングし、高い頻度(ヘッド)文を調整可能に削減する。
第2に,レアワード露光を促進するために,アコースティックデータに稀な単語を明示的にフィルタリングする。
最後に、パープレキシティに基づくコントラスト選択によるドメインミスマッチに取り組み、対象ドメインにマッチする例をフィルタリングする。
web検索クエリの大規模なコーパスを53倍ダウンセレクトし,ダウンセレクションを行わずにlmパープレキシティを達成する。
最先端の音声生成エンジンと浅く融合すると、生コーパスで訓練されたベースラインlmと比較して、希少語文に対して最大24%のwr削減が達成される(全体のwrは変化しない)。
これらの利得は、ライブ音声検索トラフィックのサイドバイサイド評価によってさらに検証される。
関連論文リスト
- LM-assisted keyword biasing with Aho-Corasick algorithm for Transducer-based ASR [3.841280537264271]
そこで本研究では,音声認識性能向上のためのライトオンザフライ方式を提案する。
我々は、名前付きエンティティのバイアスリストと単語レベルのn-gram言語モデルと、Aho-Corasick文字列マッチングアルゴリズムに基づく浅い融合アプローチを組み合わせる。
逆実時間係数の実用的差のない一般単語誤り率の21.6%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-09-20T13:53:37Z) - Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Unsupervised Domain Adaptation for Sparse Retrieval by Filling
Vocabulary and Word Frequency Gaps [12.573927420408365]
事前訓練された言語モデルを用いたIRモデルはBM25のような語彙的アプローチよりも大幅に優れていた。
本稿では,語彙と単語周波数のギャップを埋めることによる教師なし領域適応手法を提案する。
提案手法は,現在最先端の領域適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-08T03:58:26Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - Three Sentences Are All You Need: Local Path Enhanced Document Relation
Extraction [54.95848026576076]
本稿では,文書レベルREのエビデンス文を選択するための,恥ずかしいほど単純だが効果的な方法を提案する。
私たちはhttps://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need.comでコードを公開しました。
論文 参考訳(メタデータ) (2021-06-03T12:29:40Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - Sequential Sentence Matching Network for Multi-turn Response Selection
in Retrieval-based Chatbots [45.920841134523286]
本稿では,文レベルの意味情報を用いて問題に対処する,逐次文マッチングネットワーク(S2M)を提案する。
まず、文レベルの意味情報を用いて、ネットワークが問題に対処し、マッチングを大幅に改善し、その結果、最先端のパフォーマンスが得られることがわかった。
論文 参考訳(メタデータ) (2020-05-16T09:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。