論文の概要: Beyond Prompting: Efficient and Robust Contextual Biasing for Speech LLMs via Logit-Space Integration (LOGIC)
- arxiv url: http://arxiv.org/abs/2601.15397v1
- Date: Wed, 21 Jan 2026 19:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.391451
- Title: Beyond Prompting: Efficient and Robust Contextual Biasing for Speech LLMs via Logit-Space Integration (LOGIC)
- Title(参考訳): Logit-Space Integration (LOGIC)による音声LLMの効率的かつロバストなコンテキストバイアス
- Authors: Peidong Wang,
- Abstract要約: 我々は、デコード層で直接動作する効率的で堅牢なフレームワークであるLOGICを紹介する。
LogICは、入力処理からコンテキストインジェクションを分離し、一定時間の複雑さを保証する。
Phi-4-MMモデルを11個の多言語局所で実験したところ、LOGICはEntity WERの平均9%の相対的な減少を達成することが示された。
- 参考スコア(独自算出の注目度): 8.474586607625737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid emergence of new entities -- driven by cultural shifts, evolving trends, and personalized user data -- poses a significant challenge for existing Speech Large Language Models (Speech LLMs). While these models excel at general conversational tasks, their static training knowledge limits their ability to recognize domain-specific terms such as contact names, playlists, or technical jargon. Existing solutions primarily rely on prompting, which suffers from poor scalability: as the entity list grows, prompting encounters context window limitations, increased inference latency, and the "lost-in-the-middle" phenomenon. An alternative approach, Generative Error Correction (GEC), attempts to rewrite transcripts via post-processing but frequently suffers from "over-correction", introducing hallucinations of entities that were never spoken. In this work, we introduce LOGIC (Logit-Space Integration for Contextual Biasing), an efficient and robust framework that operates directly in the decoding layer. Unlike prompting, LOGIC decouples context injection from input processing, ensuring constant-time complexity relative to prompt length. Extensive experiments using the Phi-4-MM model across 11 multilingual locales demonstrate that LOGIC achieves an average 9% relative reduction in Entity WER with a negligible 0.30% increase in False Alarm Rate.
- Abstract(参考訳): 文化の変化、トレンドの進化、パーソナライズされたユーザデータによって引き起こされる新しいエンティティの急速な台頭は、既存の音声大言語モデル(Speech LLMs)にとって大きな課題となっている。
これらのモデルは一般的な会話タスクでは優れているが、静的トレーニングの知識は、連絡先名、プレイリスト、技術的用語など、ドメイン固有の用語を認識する能力を制限する。
エンティティリストが大きくなるにつれて、遭遇するコンテキストウィンドウの制限、推論遅延の増大、そして"中途半端な(lost-in-the-middle)"現象である。
別のアプローチであるGEC(Generative Error Correction)は、ポストプロセッシングによって書き直そうとするが、しばしば「過度な訂正」に悩まされ、話されることのないエンティティの幻覚をもたらす。
本稿では,デコーディング層内で直接動作する効率的で堅牢なフレームワークであるLOGIC(Logit-Space Integration for Contextual Biasing)を紹介する。
プロンプトとは異なり、LOGICはコンテクストインジェクションを入力処理から切り離し、プロンプト長に対して一定時間の複雑さを確保する。
11個の多言語局所にわたるPhi-4-MMモデルを用いた大規模な実験により、LOGICは平均9%のEntity WERを減少させ、False Alarm Rateは0.30%増加した。
関連論文リスト
- GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - CAAD: Context-Aware Adaptive Decoding for Truthful Text Generation [31.469511576774252]
大規模言語モデルに対する文脈対応適応型復号法を提案する。
当社のアプローチは、TrathfulQAで平均2.8%の改善を実現しています。
モデルに依存しない,スケーラブルで,効率的な手法では,1世代パスしか必要としない。
論文 参考訳(メタデータ) (2025-08-04T08:28:25Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - LLM-based Generative Error Correction for Rare Words with Synthetic Data and Phonetic Context [4.444835399672951]
稀な単語を対象とし,音声情報を組み込んだ新しいGER手法を提案する。
実験結果から,本手法は稀な単語の訂正を改善するだけでなく,WERとCERを低減させることがわかった。
論文 参考訳(メタデータ) (2025-05-23T02:54:52Z) - Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering [8.926050258264844]
本研究では,AttenHScoreと呼ばれる実用的な呼び出し評価指標を提案する。
小さなLMの生成過程における幻覚の蓄積と伝播を計算する。
検出しきい値を動的に調整することにより、大きなLMのより正確なリアルタイム実行を実現する。
論文 参考訳(メタデータ) (2025-05-05T01:45:56Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。