論文の概要: JSPG: Dynamic Dictionary Filtering via Joint Semantic-Pinyin-Glyph Retrieval for Chinese Contextual ASR
- arxiv url: http://arxiv.org/abs/2605.16896v1
- Date: Sat, 16 May 2026 09:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.224887
- Title: JSPG: Dynamic Dictionary Filtering via Joint Semantic-Pinyin-Glyph Retrieval for Chinese Contextual ASR
- Title(参考訳): JSPG:中国語コンテクストASRのための連接セマンティック-ピニン-グリフ検索による動的辞書フィルタリング
- Authors: Shilin Zhou, Zhenghua Li,
- Abstract要約: 文脈自動音声認識(ASR)は、大規模なキーワード辞書の課題に直面している。
我々はSemantic, Pinyin, Glyph機能(JSPG)を共同で統合するフィルタリングフレームワークを提案する。
ピニンは音韻的類似性に基づいて標的を効果的に回収し、グリフは中国語固有の無関係なホモフォンをフィルタリングするための補完的な構造的手がかりを提供する。
- 参考スコア(独自算出の注目度): 22.85976487410603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual Automatic Speech Recognition (ASR) faces challenges with large-scale keyword dictionaries, as excessive irrelevant candidates introduce noise that degrades accuracy. To address this, dynamic filtering typically uses a base ASR model to generate preliminary hypotheses, followed by semantic text retrievers to fetch a concise subset of relevant keywords. However, this approach frequently fails in Chinese ASR. Base models often produce homophonic or near-homophonic errors that preserve the phonetic cues of the target keywords but severely distort their semantic meaning, rendering standard semantic retrievers ineffective. To resolve this, we propose a filtering framework that jointly integrates Semantic, Pinyin, and Glyph features (JSPG). Pinyin effectively retrieves targets based on phonetic similarity, while glyph provides complementary structural cues to filter out numerous irrelevant homophones inherent in Chinese. To bridge the gap between character-level pinyin/glyph metrics and sequence-level filtering, we introduce an extended Smith-Waterman algorithm that computes similarity scores between the N-best hypothesis sequences and keywords. Experiments on the Aishell-1 and RWCS-NER datasets demonstrate that JSPG significantly outperforms single-feature baselines. Furthermore, downstream contextual ASR models guided by JSPG achieve substantial improvements in keyword recognition accuracy.
- Abstract(参考訳): 文脈自動音声認識(ASR)は、過剰な無関係な候補が精度を低下させるノイズを導入するため、大規模なキーワード辞書の課題に直面している。
これを解決するために、動的フィルタリングは通常、基本的なASRモデルを使用して予備仮説を生成し、続いてセマンティックテキスト検索者が関連するキーワードの簡潔なサブセットを取得する。
しかし、この手法は中国ASRでは頻繁に失敗する。
ベースモデルは、しばしばホモフォニックまたは近ホモフォニックなエラーを生成し、ターゲットキーワードの音声的手がかりを保存するが、その意味をひどく歪め、標準的なセマンティックレトリバーを非効率にする。
そこで我々はSemantic, Pinyin, Glyph機能(JSPG)を協調的に統合するフィルタリングフレームワークを提案する。
ピニンは音韻的類似性に基づいて標的を効果的に回収し、グリフは中国語固有の無関係なホモフォンをフィルタリングするための補完的な構造的手がかりを提供する。
文字レベルのPinyin/glyphメトリクスとシーケンスレベルのフィルタリングのギャップを埋めるために,N-best仮説シーケンスとキーワード間の類似度スコアを計算する拡張Smith-Watermanアルゴリズムを導入する。
Aishell-1とRWCS-NERデータセットの実験は、JSPGが単一機能ベースラインを著しく上回ることを示した。
さらに、JSPGによって導かれる下流文脈ASRモデルは、キーワード認識精度を大幅に改善する。
関連論文リスト
- Improving Contextual ASR via Multi-grained Fusion with Large Language Models [12.755830619473368]
本稿では,Large Language Models (LLMs) によるトークンレベルとフレーズレベルの融合の強みを両立させる,新しい多層融合手法を提案する。
提案手法は,ASRの音響情報とLLMの豊富な文脈知識を組み合わせ,詳細なトークン精度と全体論的フレーズレベルの理解のバランスをとる,遅延融合戦略を取り入れたものである。
中国語と英語のデータセットを用いた実験により,キーワード関連メトリクスの最先端性能が得られた。
論文 参考訳(メタデータ) (2025-07-16T13:59:32Z) - IterKey: Iterative Keyword Generation with LLMs for Enhanced Retrieval Augmented Generation [24.108631023133704]
IterKeyは、スパース検索によるRAGを強化する反復的なキーワード生成フレームワークである。
BM25ベースのRAGと単純なベースラインよりも5%から20%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-05-13T11:25:15Z) - Disambiguation of Chinese Polyphones in an End-to-End Framework with Semantic Features Extracted by Pre-trained BERT [81.99600765234285]
ポリフォニック文字の発音を予測するためのエンドツーエンドフレームワークを提案する。
提案手法は,Transformers(BERT)モデルとニューラルネットワーク(NN)に基づく分類器から,事前訓練された双方向エンコーダ表現からなる。
論文 参考訳(メタデータ) (2025-01-02T06:51:52Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - SimCKP: Simple Contrastive Learning of Keyphrase Representations [36.88517357720033]
そこで本論文では,(1)文脈認識型フレーズレベルの表現からキーフレーズを抽出する抽出器・ジェネレータと,(2)生成したフレーズのスコアを対応する文書と整列させることで,文書に現れないキーフレーズを生成するリランカと,の2つの段階からなる単純なコントラスト学習フレームワークであるSimCKPを提案する。
論文 参考訳(メタデータ) (2023-10-12T11:11:54Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - Keyword-Attentive Deep Semantic Matching [1.8416014644193064]
本稿では,深いセマンティックマッチングを改善するためのキーワード付きアプローチを提案する。
まず、大きなコーパスからのドメインタグを利用して、ドメインを拡張したキーワード辞書を生成する。
モデル学習中,入力ペア間のキーワードカバレッジに基づく新しいネガティブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-03-11T10:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。