論文の概要: Approximate Nearest Neighbour Phrase Mining for Contextual Speech
Recognition
- arxiv url: http://arxiv.org/abs/2304.08862v2
- Date: Wed, 16 Aug 2023 10:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 17:00:30.591624
- Title: Approximate Nearest Neighbour Phrase Mining for Contextual Speech
Recognition
- Title(参考訳): 文脈音声認識のための近距離隣接句マイニング
- Authors: Maurits Bleeker, Pawel Swietojanski, Stefan Braun and Xiaodan Zhuang
- Abstract要約: 我々は、コンテキストエンコーダの潜在空間からハードネガティブなフレーズを抽出する単純かつ効率的な方法を用いて、エンドツーエンドのコンテキスト対応トランスデューサ(CATT)モデルを訓練する。
トレーニング中、参照クエリーを考慮し、近い近傍探索を用いて類似したフレーズを多数マイニングする。
これらのサンプルフレーズは、ランダムな真理と基底的な文脈情報と共にコンテキストリストの負の例として使用される。
- 参考スコア(独自算出の注目度): 5.54562323810107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an extension to train end-to-end Context-Aware
Transformer Transducer ( CATT ) models by using a simple, yet efficient method
of mining hard negative phrases from the latent space of the context encoder.
During training, given a reference query, we mine a number of similar phrases
using approximate nearest neighbour search. These sampled phrases are then used
as negative examples in the context list alongside random and ground truth
contextual information. By including approximate nearest neighbour phrases
(ANN-P) in the context list, we encourage the learned representation to
disambiguate between similar, but not identical, biasing phrases. This improves
biasing accuracy when there are several similar phrases in the biasing
inventory. We carry out experiments in a large-scale data regime obtaining up
to 7% relative word error rate reductions for the contextual portion of test
data. We also extend and evaluate CATT approach in streaming applications.
- Abstract(参考訳): 本稿では,文脈エンコーダの潜在空間からハードネガティブなフレーズを抽出する簡易かつ効率的な手法を用いて,エンドツーエンドのコンテキスト認識変換器(CATT)モデルを訓練するための拡張を提案する。
トレーニング中、参照クエリーを考慮し、近い近傍探索を用いて類似したフレーズを多数マイニングする。
これらのサンプルフレーズは、ランダムな真理と基底的な文脈情報と共にコンテキストリストの負の例として使用される。
文脈リストに近似隣接句(ann-p)を含むことにより、学習表現は類似するが同一ではないバイアスフレーズ間の曖昧さを解消することを推奨する。
これにより、バイアスインベントリに類似したフレーズが複数ある場合のバイアス精度が向上する。
テストデータのコンテキスト部分に対して,最大7%の単語誤り率の削減を実現した大規模データレジームで実験を行った。
また,ストリーミングアプリケーションにおけるCATTアプローチの拡張と評価を行った。
関連論文リスト
- Span-Aggregatable, Contextualized Word Embeddings for Effective Phrase Mining [0.22499166814992438]
目的語句が雑音の多い文脈内に存在する場合, 単語の完全文を1つの高次ベクトルで表すだけでは, 効果的な句検索には不十分であることを示す。
本稿では,この手法がフレーズマイニングに有用であるが,有用なスパン表現を得るためには,かなりの計算が必要であることを示す。
論文 参考訳(メタデータ) (2024-05-12T12:08:05Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - Improving Few-Shot Performance of Language Models via Nearest Neighbor
Calibration [12.334422701057674]
In-context Learning のための近辺校正フレームワークを提案する。
インコンテキスト学習パラダイムは、トレーニングインスタンスを推論する際に誤ったラベルを生成するという現象にインスパイアされている。
テキスト分類タスクの多種多様な実験により,本手法はテキスト内学習を大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-12-05T12:49:41Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to
Corpus Exploration [25.159601117722936]
我々は,BERTがより強力なフレーズ埋め込みを生成可能な,対照的な微調整対象を提案する。
提案手法は,パラフレーズ生成モデルを用いて自動生成される多種多様なパラフレーズのデータセットに依存する。
ケーススタディでは、フレーズベースのニューラルトピックモデルを構築するために、Phrase-BERT埋め込みを単純なオートエンコーダと簡単に統合できることが示されている。
論文 参考訳(メタデータ) (2021-09-13T20:31:57Z) - Pareto Probing: Trading Off Accuracy for Complexity [87.09294772742737]
我々は,プローブの複雑性と性能の基本的なトレードオフを反映したプローブ計量について論じる。
係り受け解析による実験により,文脈表現と非文脈表現の統語的知識の幅広いギャップが明らかとなった。
論文 参考訳(メタデータ) (2020-10-05T17:27:31Z) - Approximate Nearest Neighbor Negative Contrastive Learning for Dense
Text Retrieval [20.62375162628628]
本稿では, コーパスの近似ニアネストニアバー(ANN)指数から負を構成する学習機構である, 近似近傍の負相対性推定(ANCE)を提案する。
実験では,BERT-Siamese DRモデルを改良し,厳密でスパースな検索ベースラインを上回ります。
これは、ANCE学習表現空間におけるドット生成を用いたスパース検索とBERTの精度とほぼ一致し、約100倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-07-01T23:15:56Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。