論文の概要: Written Term Detection Improves Spoken Term Detection
- arxiv url: http://arxiv.org/abs/2407.04601v1
- Date: Fri, 5 Jul 2024 15:50:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 12:51:25.167380
- Title: Written Term Detection Improves Spoken Term Detection
- Title(参考訳): 書き込み語検出による音声語検出の改善
- Authors: Bolaji Yusuf, Murat Saraçlar,
- Abstract要約: 本稿では、インデックスや検索を複雑にすることなく、未完成のテキストをE2E KWSに統合できるマルチタスク学習目標を提案する。
音声文書からテキストクエリを検索するためのE2E KWSモデルのトレーニングに加えて,マスクした文書からテキストクエリを検索するための共同トレーニングを行う。
提案手法は, 多様な言語を対象とした検索性能を大幅に向上させるとともに, KWS の未実装テキストを効果的に活用できることを示す。
- 参考スコア(独自算出の注目度): 9.961529254621432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) approaches to keyword search (KWS) are considerably simpler in terms of training and indexing complexity when compared to approaches which use the output of automatic speech recognition (ASR) systems. This simplification however has drawbacks due to the loss of modularity. In particular, where ASR-based KWS systems can benefit from external unpaired text via a language model, current formulations of E2E KWS systems have no such mechanism. Therefore, in this paper, we propose a multitask training objective which allows unpaired text to be integrated into E2E KWS without complicating indexing and search. In addition to training an E2E KWS model to retrieve text queries from spoken documents, we jointly train it to retrieve text queries from masked written documents. We show empirically that this approach can effectively leverage unpaired text for KWS, with significant improvements in search performance across a wide variety of languages. We conduct analysis which indicates that these improvements are achieved because the proposed method improves document representations for words in the unpaired text. Finally, we show that the proposed method can be used for domain adaptation in settings where in-domain paired data is scarce or nonexistent.
- Abstract(参考訳): キーワード検索(KWS)に対するエンドツーエンド(E2E)アプローチは、自動音声認識(ASR)システムを用いた手法と比較して、トレーニングやインデックス化の複雑さの観点からかなり単純である。
しかし、この単純化はモジュラリティの欠如による欠点がある。
特に、ASRベースのKWSシステムは言語モデルを介して外部の未ペアテキストから恩恵を受けることができるが、現在のE2E KWSシステムの定式化にはそのようなメカニズムがない。
そこで本稿では,インデックス作成や検索を複雑にすることなく,未ペアテキストをE2E KWSに統合可能なマルチタスク学習目標を提案する。
音声文書からテキストクエリを検索するためのE2E KWSモデルのトレーニングに加えて,マスクした文書からテキストクエリを検索するための共同トレーニングを行う。
我々は,この手法が,さまざまな言語を対象とした検索性能を大幅に向上させるとともに,KWSの未実装テキストを効果的に活用できることを実証的に示す。
提案手法は、未読字テキスト中の単語の文書表現を改善するため、これらの改善が達成されることを示す分析を行う。
最後に,本提案手法は,ドメイン内ペアデータが少ない,あるいは存在しない設定において,ドメイン適応に利用できることを示す。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units [8.86336076082867]
本研究では,E2E KWS システムを非転写データで事前学習する手法を提案する。
このようなモデルの微調整は、スクラッチからトレーニングしたモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-05T17:07:58Z) - Augmenting text for spoken language understanding with Large Language
Models [13.240782495441275]
対応する音声を使わずに書き起こし構文解析データ(未ペアテキスト)の使い方を示す。
実験の結果、既存のドメインと新しいドメインの未ペアテキストは、絶対的エクサクトマッチ(EM)において、それぞれ2%と30%の性能を向上させることがわかった。
本稿では,既存のドメインや新しいドメインに対する未ペアテキストを生成するために,LLM(Large Language Models)を提案する。
論文 参考訳(メタデータ) (2023-09-17T22:25:34Z) - Text Injection for Capitalization and Turn-Taking Prediction in Speech
Models [45.94388391693112]
本研究では,E2Eモデルでしばしば実行される非ASRタスクである補助タスクに対するテキストインジェクションの利用について検討する。
テキストインジェクション法により,長期データに対するキャピタライゼーション性能が向上することを示す。
論文 参考訳(メタデータ) (2023-08-14T18:28:04Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [12.37229805276939]
本稿では,DupMAE(Duplex Masked Auto-Encoder)と呼ばれる新しい事前学習手法を提案する。
事前訓練されたモデルのすべてのコンテキスト化埋め込みを活用できる品質意味表現を改善するように設計されている。
論文 参考訳(メタデータ) (2023-05-04T05:37:22Z) - Leveraging Large Text Corpora for End-to-End Speech Summarization [58.673480990374635]
エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。
本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:49Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。