論文の概要: Contextualized Token Discrimination for Speech Search Query Correction
- arxiv url: http://arxiv.org/abs/2509.04393v1
- Date: Thu, 04 Sep 2025 17:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.227305
- Title: Contextualized Token Discrimination for Speech Search Query Correction
- Title(参考訳): 音声検索クエリ訂正のための文脈別トークン識別
- Authors: Junyu Lu, Di Jiang, Mengze Hong, Victor Junqiu Wei, Qintian Guo, Zhiyang Su,
- Abstract要約: 本稿では,効率的な音声クエリ補正を行うためのCTD (Contextualized Token Discrimination) を提案する。
CTDでは、まずBERTを用いてトークンレベルの文脈化表現を生成し、次に意味情報を強化するための合成層を構築します。
集約されたトークン表現に従って正しいクエリを生成し、元のトークン表現とコンテキスト化された表現を比較して不正なトークンを補正する。
- 参考スコア(独自算出の注目度): 14.096535124540354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query spelling correction is an important function of modern search engines since it effectively helps users express their intentions clearly. With the growing popularity of speech search driven by Automated Speech Recognition (ASR) systems, this paper introduces a novel method named Contextualized Token Discrimination (CTD) to conduct effective speech query correction. In CTD, we first employ BERT to generate token-level contextualized representations and then construct a composition layer to enhance semantic information. Finally, we produce the correct query according to the aggregated token representation, correcting the incorrect tokens by comparing the original token representations and the contextualized representations. Extensive experiments demonstrate the superior performance of our proposed method across all metrics, and we further present a new benchmark dataset with erroneous ASR transcriptions to offer comprehensive evaluations for audio query correction.
- Abstract(参考訳): クエリスペル訂正は,ユーザの意図を明確に表現するのに役立つため,現代の検索エンジンにとって重要な機能である。
本稿では,自動音声認識(ASR)システムによる音声検索の普及に伴い,効率的な音声クエリの補正を行うためのテクスチュアライズドトークン識別(CTD)という新しい手法を提案する。
CTDでは、まずBERTを用いてトークンレベルの文脈化表現を生成し、次に意味情報を強化するための合成層を構築します。
最後に、集約されたトークン表現に従って正しいクエリを生成し、元のトークン表現とコンテキスト化された表現を比較して不正なトークンを補正する。
拡張実験では,提案手法のすべての指標に対して優れた性能を示すとともに,音声クエリ補正のための総合的な評価を行うために,誤ASR書き起こしを用いたベンチマークデータセットを新たに提案する。
関連論文リスト
- Descriminative-Generative Custom Tokens for Vision-Language Models [101.40245125955306]
本稿では,視覚言語モデル(VLM)における新しい概念を表現するためのカスタムトークンの学習の可能性について検討する。
本研究の目的は,識別的タスクと生成的タスクの両方に有効なトークンを学習し,単語をうまく合成して新しい入力クエリを構築することである。
論文 参考訳(メタデータ) (2025-02-17T18:13:42Z) - BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection [8.303512060791736]
スポット項の検出は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存しているため、しばしば妨げられる。
本稿では,音声を個別の話者に依存しないセマンティックトークンに符号化する手法を提案する。
これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
論文 参考訳(メタデータ) (2024-11-21T13:05:18Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - An efficient text augmentation approach for contextualized Mandarin speech recognition [4.600045052545344]
本研究は、テキストのみのデータセットを活用し、事前学習されたASRモデルを文脈化することを提案する。
事前学習したCIFベースのASRを文脈化するために,限られた音声テキストデータを用いたコードブックを構築した。
多様なマンダリンテストセットに対する実験により,我々のTAアプローチは認識性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-06-14T11:53:14Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Text-Only Domain Adaptation for End-to-End Speech Recognition through
Down-Sampling Acoustic Representation [67.98338382984556]
音声とテキストの2つのモダリティを共有表現空間にマッピングすることは、テキストのみのデータを用いて、新しいドメインにおけるエンドツーエンドの自動音声認識(ASR)の性能を改善する研究トピックである。
本稿では,テキストのモダリティに合わせるために,ダウンサンプリング音響表現を用いた新しい表現手法を提案する。
我々のASRモデルは、両方のモダリティから統一表現をよりよく学習することができ、ターゲットドメインのテキストのみのデータを用いたドメイン適応を可能にします。
論文 参考訳(メタデータ) (2023-09-04T08:52:59Z) - Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文 参考訳(メタデータ) (2022-07-03T13:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。