論文の概要: MURMUR: An Efficient Inference System for Long-Form ASR
- arxiv url: http://arxiv.org/abs/2606.01483v1
- Date: Sun, 31 May 2026 22:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.730762
- Title: MURMUR: An Efficient Inference System for Long-Form ASR
- Title(参考訳): MURMUR:長期ASRのための効率的な推論システム
- Authors: Wei-Tzu Lee, Keisuke Kamahori, Baris Kasikci,
- Abstract要約: 長文自動音声認識は高精度と低レイテンシの両方を必要とする。
チャンクベースのパイプラインは、低レイテンシで並列ウィンドウでオーディオを処理するが、コンテキスト間のコンテキストは失われる。
長いコンテキストモデルは、1回のパスですべてを解決し、精度は向上するが、桁違いに遅い。
本稿では,このトレードオフを克服する2段階の推論システムであるMurmurを提案する。
- 参考スコア(独自算出の注目度): 5.721402685889177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-form automatic speech recognition (ASR) requires both high accuracy and low latency, but existing systems force a trade-off between the two. Chunk-based pipelines process audio in parallel windows for low latency, but lose cross-chunk context and need brittle heuristics to align speakers and timestamps at boundaries. Long-context ASR models resolve everything in a single pass for better accuracy, but are an order of magnitude slower. We propose Murmur, an inference system that overcomes this trade-off by operating at two levels. At the inter-chunk level, we revisit the chunk-based pipeline for modern long-context ASR, treating chunk size as a tunable hyperparameter, and show that intermediate chunk sizes strike a good balance of accuracy and latency. At the intra-chunk level, we exploit attention sparsity through a sliding window KV cache eviction policy applied to both output and speech tokens. On AMI-IHM, Murmur matches single-pass accuracy while reducing latency by 4.2x, with further gains from token eviction at less than 1% relative tcpWER degradation. The code of Murmur is available at https://github.com/uw-syfi/Murmur.
- Abstract(参考訳): ASR(Long-form Automatic Speech Recognition)は、高精度と低レイテンシの両方を必要とするが、既存のシステムは両者のトレードオフを強いる。
チャンクベースのパイプラインは、低レイテンシのために並列ウィンドウでオーディオを処理するが、クロスチャンクコンテキストを失い、境界におけるスピーカーとタイムスタンプの整列に脆弱なヒューリスティックが必要になる。
長いコンテキストのASRモデルは、1回のパスですべてを解決し、精度が向上するが、桁違いに遅い。
本稿では,このトレードオフを克服する2段階の推論システムであるMurmurを提案する。
チャンク間レベルでは、現代長文ASRのためのチャンクベースパイプラインを再検討し、チャンクサイズを調整可能なハイパーパラメータとして扱い、中間チャンクサイズが精度とレイテンシのバランスが良いことを示す。
チャンク内レベルでは、出力トークンと音声トークンの両方に適用するスライディングウインドウKVキャッシュ消去ポリシーを用いて、注意間隔を利用する。
AMI-IHMでは、Murmurはシングルパスの精度と一致し、レイテンシを4.2倍に削減した。
Murmurのコードはhttps://github.com/uw-syfi/Murmur.comで公開されている。
関連論文リスト
- OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond [50.440302567029654]
マルチモーダルインテリジェンスにより、Key-Valueキャッシュは効率的なデプロイメントのための主要なメモリボトルネックとなった。
本研究では、チャネルごとの量子化パラダイムの本質的な限界を再考する。
X-LLMのための高精度かつ軽量なKVキャッシュ圧縮フレームワークOScaRを提案する。
論文 参考訳(メタデータ) (2026-05-19T10:53:03Z) - Stream2LLM: Overlap Context Streaming and Prefill for Reduced Time-to-First-Token (TTFT) [2.8350851063316873]
ストリーミングコンテキスト – 推論による重なり合う検索 – は、このレイテンシを軽減することができる。
本稿では,ストリーミング対応LLMサービスシステムStream2LLMについて述べる。
論文 参考訳(メタデータ) (2026-03-29T06:49:12Z) - RelayS2S: A Dual-Path Speculative Generation for Real-Time Dialogue [11.153295574224634]
RelayS2Sは、ターン検出時に並列に2つのパスを実行するハイブリッドアーキテクチャである。
ライトウェイト学習検証器は、ハンドオフをゲートし、適切な場合にはプレフィックスをコミットし、遅路のみに優雅に後退する。
論文 参考訳(メタデータ) (2026-03-24T15:43:58Z) - LE-NeuS: Latency-Efficient Neuro-Symbolic Video Understanding via Adaptive Temporal Verification [14.954035477725276]
本稿では、時間的論理誘導映像理解の精度を保った遅延効率のよいニューロシンボリック・フレームワークLE-NeuSを提案する。
LongVideoBench と Video-MME のベンチマークでは、LE-NeuS は遅延ギャップを 90x から 10x に削減し、時間的に複雑なクエリでは 10% の精度向上を維持している。
論文 参考訳(メタデータ) (2026-02-26T23:28:13Z) - Spiralformer: Low Latency Encoder for Streaming Speech Recognition with Circular Layer Skipping and Early Exiting [70.75913449565203]
Transformerベースのエンコーダはブロック処理に広く使われている。
本稿では,ブロック処理に適した新しいエンコーダSpralformerを提案する。
実験の結果,Librispeechにおける平均トークン放出遅延は21.6%減少した。
論文 参考訳(メタデータ) (2025-10-01T14:56:45Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation [56.694702609077495]
ロングシーケンス処理は、現代の大規模言語モデルにとって重要な機能である。
InfLLM-V2は、ショートシーケンスからロングシーケンスまでのモデルをシームレスに適応する訓練可能なスパースアテンションフレームワークである。
実験では、InfLLM-V2は高密度の注意より4$times$速いが、98.1%と99.7%のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-09-29T12:08:33Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR
Using Sequentially Sampled Chunks and Chunked Causal Convolution [10.896823447820232]
本研究では,ストリーミングASRにおけるチャンクワイド・コンバータの限界を押し上げるために,SCFormerを提案する。
我々は、End-to-End (E2E) CER 5.33%が達成できることを示す。
論文 参考訳(メタデータ) (2022-11-21T13:04:37Z) - Delay-penalized transducer for low-latency streaming ASR [26.39851372961386]
本稿では,外部アライメントを伴わないストリーミングモデルにおいて,シンボル遅延と精度のトレードオフをバランスさせるため,トランスデューサモデルにおいてシンボル遅延をペナルタイズする簡単な方法を提案する。
提案手法は以前公表したFastEmitと同じような遅延精度のトレードオフを実現するが, 正当性が高いため, 平均的なシンボル遅延をペナルティ化するのに等価であると考えられる。
論文 参考訳(メタデータ) (2022-10-31T07:03:50Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。