論文の概要: On-the-fly Text Retrieval for End-to-End ASR Adaptation
- arxiv url: http://arxiv.org/abs/2303.10942v1
- Date: Mon, 20 Mar 2023 08:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:25:00.909679
- Title: On-the-fly Text Retrieval for End-to-End ASR Adaptation
- Title(参考訳): エンドツーエンドASR適応のためのオンザフライテキスト検索
- Authors: Bolaji Yusuf, Aditya Gourav, Ankur Gandhe, Ivan Bulyko
- Abstract要約: 本稿では,部分的ASR仮説に対して,外部テキストコーパスから可算完了を抽出する検索言語モデルを用いてトランスデューサベースのASRモデルを強化することを提案する。
実験の結果,提案モデルにより,一対の質問応答データセット上でのトランスデューサベースラインの性能が大幅に向上することがわかった。
- 参考スコア(独自算出の注目度): 9.304386210911822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end speech recognition models are improved by incorporating external
text sources, typically by fusion with an external language model. Such
language models have to be retrained whenever the corpus of interest changes.
Furthermore, since they store the entire corpus in their parameters, rare words
can be challenging to recall. In this work, we propose augmenting a
transducer-based ASR model with a retrieval language model, which directly
retrieves from an external text corpus plausible completions for a partial ASR
hypothesis. These completions are then integrated into subsequent predictions
by an adapter, which is trained once, so that the corpus of interest can be
switched without incurring the computational overhead of retraining. Our
experiments show that the proposed model significantly improves the performance
of a transducer baseline on a pair of question-answering datasets. Further, it
outperforms shallow fusion on recognition of named entities by about 7
relative; when the two are combined, the relative improvement increases to 13%.
- Abstract(参考訳): エンドツーエンド音声認識モデルは、通常、外部言語モデルとの融合によって、外部テキストソースを組み込むことによって改善される。
このような言語モデルは、関心のコーパスが変わるたびに再トレーニングする必要があります。
さらに、全コーパスをパラメータに格納するので、稀な単語を思い出すことは困難である。
本研究では,部分的ASR仮説に対して,外部テキストコーパスから直接検索可能な,トランスデューサに基づくASRモデルを検索言語モデルで拡張することを提案する。
これらの完了はアダプタによって後続の予測に統合され、一度トレーニングすることで、再トレーニングの計算オーバーヘッドを負うことなく、関心のコーパスを切り替えることができる。
実験により,提案モデルが2組の質問応答データセットにおけるトランスデューサベースラインの性能を大幅に改善することを示した。
さらに、名前付きエンティティの認識における浅い融合を約7の相対で上回り、2つを組み合わせれば相対的な改善は13%に向上する。
関連論文リスト
- End-to-End Trainable Retrieval-Augmented Generation for Relation Extraction [7.613942320502336]
ETRAG(End-to-end Trainable Retrieval-Augmented Generation)を提案する。
ETRAGは、関係抽出の目的のために、レトリバーを含むモデル全体のエンドツーエンドの最適化を可能にする。
我々は,関係抽出の標準ベンチマークであるTACREDデータセット上でのETRAGの関係抽出性能を評価する。
論文 参考訳(メタデータ) (2024-06-06T07:01:50Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - ReFusion: Improving Natural Language Understanding with Computation-Efficient Retrieval Representation Fusion [22.164620956284466]
言語モデルに外部データベースからの知識を取り入れた検索ベース拡張(RA)は,様々な知識集約(KI)タスクに大きく成功している。
既存の作業は、モデル性能を改善するために、検索と入力を結合することに焦点を当てている。
本稿では,二段階最適化を用いた計算効率の高い検索表現Fusionである textbfReFusion の新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-04T07:39:26Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。
我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。
本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-04-19T13:40:47Z) - Using External Off-Policy Speech-To-Text Mappings in Contextual
End-To-End Automated Speech Recognition [19.489794740679024]
本稿では,外部知識の活用の可能性について検討する。
提案手法では,音声の音声埋め込みと意味的テキスト埋め込みを併用して,ASRに偏りを生じさせる。
LibiriSpeechと社内音声アシスタント/検索データセットの実験により、提案手法により、最大1KのGPU時間でドメイン適応時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-01-06T22:32:50Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。