論文の概要: Peeking Into The Future For Contextual Biasing
- arxiv url: http://arxiv.org/abs/2512.17657v1
- Date: Fri, 19 Dec 2025 14:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.446546
- Title: Peeking Into The Future For Contextual Biasing
- Title(参考訳): コンテキストバイアスの未来を覗く
- Authors: Ramaneswaran Selvakumar, Cindy Tseng, Eesung Kim, Vijendra Raj Apsingekar, Yun Tang,
- Abstract要約: 本稿では,アテンションベースエンコーダデコーダ(AED)モデルに対するコンテキストバイアス法を提案する。
複数の将来トークンを同時に予測し、モデルが"未来を覗き込む"ことを可能にし、潜在的な候補エンティティをスコアする。
提案手法は,ベースラインAEDモデルと比較して,名前付き単語の誤り率を最大50.34%向上させる。
- 参考スコア(独自算出の注目度): 8.769657210925777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While end-to-end (E2E) automatic speech recognition (ASR) models excel at general transcription, they struggle to recognize rare or unseen named entities (e.g., contact names, locations), which are critical for downstream applications like virtual assistants. In this paper, we propose a contextual biasing method for attention based encoder decoder (AED) models using a list of candidate named entities. Instead of predicting only the next token, we simultaneously predict multiple future tokens, enabling the model to "peek into the future" and score potential candidate entities in the entity list. Moreover, our approach leverages the multi-token prediction logits directly without requiring additional entity encoders or cross-attention layers, significantly reducing architectural complexity. Experiments on Librispeech demonstrate that our approach achieves up to 50.34% relative improvement in named entity word error rate compared to the baseline AED model.
- Abstract(参考訳): エンド・ツー・エンド(E2E)自動音声認識(ASR)モデルは一般的な文字起こしにおいて優れているが、仮想アシスタントのような下流アプリケーションにとって重要な、希少または未確認な名前のエンティティ(連絡先名、場所など)を認識するのに苦労している。
本稿では,アテンションベースエンコーダデコーダ(AED)モデルに対して,候補となるエンティティのリストを用いたコンテキストバイアス手法を提案する。
次のトークンのみを予測する代わりに、複数の将来トークンを同時に予測し、モデルが"未来を覗き見"、エンティティリストの潜在的な候補エンティティをスコアできるようになります。
さらに,本手法では,エンティティエンコーダやクロスアテンション層を必要とせずに,マルチトークンの予測ログを直接利用することにより,アーキテクチャの複雑さを大幅に低減する。
Librispeech の実験により,提案手法はベースライン AED モデルと比較して,名前付き単語の誤り率を最大50.34%向上させることを示した。
関連論文リスト
- Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。
本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。
提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文 参考訳(メタデータ) (2025-02-10T09:24:06Z) - Post-decoder Biasing for End-to-End Speech Recognition of Multi-turn
Medical Interview [26.823126615724888]
エンドツーエンド(E2E)アプローチは、自動音声認識(ASR)タスクのハイブリッドモデルを徐々に置き換えている。
そこで本研究では,トレーニング文字の分布に基づいて変換確率行列を構成する,新しい手法であるポストデコーダバイアスを提案する。
実験では,訓練音声に10回から20回出現する稀な単語のサブセットに対して,それぞれ9.3%,5.1%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2024-03-01T08:53:52Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Personalization of CTC Speech Recognition Models [15.470660345766445]
本稿では,まず,稀な長尾単語と語彙外単語のリストに対して,エンコーダに注意を向けた2方向アプローチを提案する。
オープンソースVoxPopuliおよび社内医療データセットに対する我々のアプローチを評価し,ドメイン固有のまれな単語に対するF1スコアの60%の改善を示す。
論文 参考訳(メタデータ) (2022-10-18T01:08:21Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。