Fugu-MT 論文翻訳(概要): Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

論文の概要: Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

arxiv url: http://arxiv.org/abs/2604.19635v1
Date: Tue, 21 Apr 2026 16:25:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.867431
Title: Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model
Title（参考訳）: 自己回帰言語モデルのチャンクワイズインターリーブスプリシングによるターゲット話者抽出に向けて
Authors: Shuhai Peng, Hui Lu, Jinjiang Liu, Liyang Chen, Guiping Zhong, Jiakui Li, Huimeng Wang, Haiyun Li, Liang Cao, Shiyin Kang, Zhiyong Wu,
Abstract要約: ターゲット話者抽出(TSE)のストリーミングに適した,最初の自己回帰型(AR)モデルを提案する。提案手法では,高効率かつ安定したストリーミング推論を実現するために,チャンクワイズ・インターリーブド・スプリシング・パラダイムを導入している。 Libri2Mixの実験では、AR生成ベースラインは低レイテンシで性能劣化を示すが、本手法は100%安定性と優れた知性を維持している。
参考スコア（独自算出の注目度）: 26.672519467929686
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While generative models have set new benchmarks for Target Speaker Extraction (TSE), their inherent reliance on global context precludes deployment in real-time applications. Direct adaptation to streaming scenarios often leads to catastrophic inference performance degradation due to the severe mismatch between training and streaming inference. To bridge this gap, we present the first autoregressive (AR) models tailored for streaming TSE. Our approach introduces a Chunk-wise Interleaved Splicing Paradigm that ensures highly efficient and stable streaming inference. To ensure the coherence between the extracted speech segments, we design a historical context refinement mechanism that mitigates boundary discontinuities by leveraging historical information. Experiments on Libri2Mix show that while AR generative baseline exhibits performance degradation at low latencies, our approach maintains 100% stability and superior intelligibility. Furthermore, our streaming results are comparable to or even surpass offline baselines. Additionally, our model achieves a Real-Time-Factor (RTF) of 0.248 on consumer-level GPUs. This work provides empirical evidence that AR generative backbones are viable for latency-sensitive applications through the Chunk-wise Interleaved Splicing Paradigm.
Abstract（参考訳）: 生成モデルでは、ターゲット話者抽出(TSE)のための新しいベンチマークが設定されているが、グローバルコンテキストに依存しているため、リアルタイムアプリケーションへのデプロイが妨げられている。ストリーミングシナリオへの直接的な適応は、トレーニングとストリーミング推論の深刻なミスマッチによる破滅的な推論性能の低下につながることが多い。このギャップを埋めるために、ストリーミングTSEに適した最初の自己回帰(AR)モデルを提示する。提案手法では,高効率かつ安定したストリーミング推論を実現するために,チャンクワイズ・インターリーブド・スプリシング・パラダイムを導入している。抽出した音声セグメント間のコヒーレンスを確保するため,歴史的情報を利用して境界不連続を緩和する歴史的文脈改善機構を設計する。 Libri2Mixの実験では、AR生成ベースラインは低レイテンシで性能劣化を示すが、本手法は100%安定性と優れた知性を維持している。さらに、ストリーミングの結果はオフラインのベースラインに匹敵するか、超えています。さらに,コンシューマレベルのGPU上でのRTF(Real-Time-Factor)の0.248を実現している。この研究は、Chunk-wise Interleaved Splicing Paradigmを通じて、レイテンシに敏感なアプリケーションにAR生成バックボーンが有効である、という実証的な証拠を提供する。

論文の概要: Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

関連論文リスト