論文の概要: Peeking Into The Future For Contextual Biasing
- arxiv url: http://arxiv.org/abs/2512.17657v1
- Date: Fri, 19 Dec 2025 14:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.446546
- Title: Peeking Into The Future For Contextual Biasing
- Title(参考訳): コンテキストバイアスの未来を覗く
- Authors: Ramaneswaran Selvakumar, Cindy Tseng, Eesung Kim, Vijendra Raj Apsingekar, Yun Tang,
- Abstract要約: 本稿では,アテンションベースエンコーダデコーダ(AED)モデルに対するコンテキストバイアス法を提案する。
複数の将来トークンを同時に予測し、モデルが"未来を覗き込む"ことを可能にし、潜在的な候補エンティティをスコアする。
提案手法は,ベースラインAEDモデルと比較して,名前付き単語の誤り率を最大50.34%向上させる。
- 参考スコア(独自算出の注目度): 8.769657210925777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While end-to-end (E2E) automatic speech recognition (ASR) models excel at general transcription, they struggle to recognize rare or unseen named entities (e.g., contact names, locations), which are critical for downstream applications like virtual assistants. In this paper, we propose a contextual biasing method for attention based encoder decoder (AED) models using a list of candidate named entities. Instead of predicting only the next token, we simultaneously predict multiple future tokens, enabling the model to "peek into the future" and score potential candidate entities in the entity list. Moreover, our approach leverages the multi-token prediction logits directly without requiring additional entity encoders or cross-attention layers, significantly reducing architectural complexity. Experiments on Librispeech demonstrate that our approach achieves up to 50.34% relative improvement in named entity word error rate compared to the baseline AED model.
- Abstract(参考訳): エンド・ツー・エンド(E2E)自動音声認識(ASR)モデルは一般的な文字起こしにおいて優れているが、仮想アシスタントのような下流アプリケーションにとって重要な、希少または未確認な名前のエンティティ(連絡先名、場所など)を認識するのに苦労している。
本稿では,アテンションベースエンコーダデコーダ(AED)モデルに対して,候補となるエンティティのリストを用いたコンテキストバイアス手法を提案する。
次のトークンのみを予測する代わりに、複数の将来トークンを同時に予測し、モデルが"未来を覗き見"、エンティティリストの潜在的な候補エンティティをスコアできるようになります。
さらに,本手法では,エンティティエンコーダやクロスアテンション層を必要とせずに,マルチトークンの予測ログを直接利用することにより,アーキテクチャの複雑さを大幅に低減する。
Librispeech の実験により,提案手法はベースライン AED モデルと比較して,名前付き単語の誤り率を最大50.34%向上させることを示した。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE [15.003006630308517]
投機的復号(SD)は、より小さなドラフトモデルを用いて複数のトークンを予測することで、大きな言語モデル推論を加速する。
本稿では,専門家の混在(Mixture of Experts, MoE)を利用したJakiroを提案する。
提案手法は予測精度を大幅に向上し,推論高速化を実現する。
論文 参考訳(メタデータ) (2025-02-10T09:24:06Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Post-decoder Biasing for End-to-End Speech Recognition of Multi-turn
Medical Interview [26.823126615724888]
エンドツーエンド(E2E)アプローチは、自動音声認識(ASR)タスクのハイブリッドモデルを徐々に置き換えている。
そこで本研究では,トレーニング文字の分布に基づいて変換確率行列を構成する,新しい手法であるポストデコーダバイアスを提案する。
実験では,訓練音声に10回から20回出現する稀な単語のサブセットに対して,それぞれ9.3%,5.1%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2024-03-01T08:53:52Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Personalization of CTC Speech Recognition Models [15.470660345766445]
本稿では,まず,稀な長尾単語と語彙外単語のリストに対して,エンコーダに注意を向けた2方向アプローチを提案する。
オープンソースVoxPopuliおよび社内医療データセットに対する我々のアプローチを評価し,ドメイン固有のまれな単語に対するF1スコアの60%の改善を示す。
論文 参考訳(メタデータ) (2022-10-18T01:08:21Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant
Supervision [49.42215511723874]
我々は,NERモデルの予測性能を改善するための新しい計算フレームワーク,BONDを提案する。
具体的には,2段階の学習アルゴリズムを提案する。第1段階では,遠隔ラベルを用いて,事前学習された言語モデルをNERタスクに適用する。
第2段階では,遠隔ラベルを廃止し,モデル性能をさらに向上するための自己学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T04:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。