論文の概要: Improving Contextual ASR via Multi-grained Fusion with Large Language Models
- arxiv url: http://arxiv.org/abs/2507.12252v1
- Date: Wed, 16 Jul 2025 13:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.418981
- Title: Improving Contextual ASR via Multi-grained Fusion with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた多粒度融合による文脈ASRの改善
- Authors: Shilin Zhou, Zhenghua Li,
- Abstract要約: 本稿では,Large Language Models (LLMs) によるトークンレベルとフレーズレベルの融合の強みを両立させる,新しい多層融合手法を提案する。
提案手法は,ASRの音響情報とLLMの豊富な文脈知識を組み合わせ,詳細なトークン精度と全体論的フレーズレベルの理解のバランスをとる,遅延融合戦略を取り入れたものである。
中国語と英語のデータセットを用いた実験により,キーワード関連メトリクスの最先端性能が得られた。
- 参考スコア(独自算出の注目度): 12.755830619473368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While end-to-end Automatic Speech Recognition (ASR) models have shown impressive performance in transcribing general speech, they often struggle to accurately recognize contextually relevant keywords, such as proper nouns or user-specific entities. Previous approaches have explored leveraging keyword dictionaries in the textual modality to improve keyword recognition, either through token-level fusion that guides token-by-token generation or phrase-level fusion that enables direct copying of keyword phrases. However, these methods operate at different granularities and have their own limitations. In this paper, we propose a novel multi-grained fusion approach that jointly leverages the strengths of both token-level and phrase-level fusion with Large Language Models (LLMs). Our approach incorporates a late-fusion strategy that elegantly combines ASR's acoustic information with LLM's rich contextual knowledge, balancing fine-grained token precision with holistic phrase-level understanding. Experiments on Chinese and English datasets demonstrate that our approach achieves state-of-the-art performance on keyword-related metrics while preserving high accuracy on non-keyword text. Ablation studies further confirm that the token-level and phrase-level components both contribute significantly to the performance gains, complementing each other in our joint multi-grained framework. The code and models will be publicly available at https://github.com/.
- Abstract(参考訳): エンドツーエンドの自動音声認識(ASR)モデルは、一般的な音声を翻訳する際、顕著なパフォーマンスを示しているが、適切な名詞やユーザ固有のエンティティなど、文脈に関連のあるキーワードを正確に認識するのに苦労することが多い。
従来の手法では、トークン・バイ・トーケン生成を導くトークン・レベル融合や、キーワード・フレーズの直接コピーを可能にするフレーズ・レベル融合などを通じて、キーワード辞書をテキストモダリティに活用して、キーワード認識を改善する方法が検討されてきた。
しかし、これらの方法は異なる粒度で動作し、それぞれに制限がある。
本稿では,Large Language Models (LLMs) によるトークンレベルとフレーズレベルの融合の強みを両立させる,新しい多層融合手法を提案する。
提案手法は,ASRの音響情報とLLMの豊富な文脈知識をエレガントに組み合わせた遅延融合戦略を取り入れ,詳細なトークン精度と全体的フレーズレベルの理解のバランスをとる。
中国語と英語のデータセットを用いた実験では、キーワード関連メトリクスの最先端性能を実現し、非キーワードテキストの精度を高く保っている。
さらに、トークンレベルとフレーズレベルの両方のコンポーネントがパフォーマンス向上に大きく寄与し、共同の多粒度フレームワークで相互に補完することを示す。
コードとモデルはhttps://github.com/.com/で公開される。
関連論文リスト
- Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [6.549601823162279]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。
プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文 参考訳(メタデータ) (2025-07-30T14:49:30Z) - Speech-Language Models with Decoupled Tokenizers and Multi-Token Prediction [58.55905182336196]
音声合成モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
本研究では,SLMの性能に及ぼすキーコンポーネント(音声トークン化,音声ヘッド,話者モデルなど)の影響について検討する。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Bridging Textual-Collaborative Gap through Semantic Codes for Sequential Recommendation [91.13055384151897]
CCFRecは、シーケンシャルレコメンデーションのための新しいコードベースのテキストおよび協調的セマンティックフュージョン法である。
ベクトル量子化手法を用いて,多視点テキスト埋め込みから細粒度セマンティックコードを生成する。
テキスト・コラボレーティブ・セマンティクスの融合をさらに促進するために,最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-03-15T15:54:44Z) - BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection [8.303512060791736]
スポット項の検出は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存しているため、しばしば妨げられる。
本稿では,音声を個別の話者に依存しないセマンティックトークンに符号化する手法を提案する。
これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
論文 参考訳(メタデータ) (2024-11-21T13:05:18Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Divide and Conquer: Text Semantic Matching with Disentangled Keywords
and Intents [19.035917264711664]
本稿では,キーワードを意図から切り離してテキストセマンティックマッチングを行うためのトレーニング戦略を提案する。
提案手法は,予測効率に影響を与えることなく,事前学習言語モデル(PLM)と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-03-06T07:48:24Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。