論文の概要: Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model
- arxiv url: http://arxiv.org/abs/2604.19635v1
- Date: Tue, 21 Apr 2026 16:25:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.867431
- Title: Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model
- Title(参考訳): 自己回帰言語モデルのチャンクワイズインターリーブスプリシングによるターゲット話者抽出に向けて
- Authors: Shuhai Peng, Hui Lu, Jinjiang Liu, Liyang Chen, Guiping Zhong, Jiakui Li, Huimeng Wang, Haiyun Li, Liang Cao, Shiyin Kang, Zhiyong Wu,
- Abstract要約: ターゲット話者抽出(TSE)のストリーミングに適した,最初の自己回帰型(AR)モデルを提案する。
提案手法では,高効率かつ安定したストリーミング推論を実現するために,チャンクワイズ・インターリーブド・スプリシング・パラダイムを導入している。
Libri2Mixの実験では、AR生成ベースラインは低レイテンシで性能劣化を示すが、本手法は100%安定性と優れた知性を維持している。
- 参考スコア(独自算出の注目度): 26.672519467929686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While generative models have set new benchmarks for Target Speaker Extraction (TSE), their inherent reliance on global context precludes deployment in real-time applications. Direct adaptation to streaming scenarios often leads to catastrophic inference performance degradation due to the severe mismatch between training and streaming inference. To bridge this gap, we present the first autoregressive (AR) models tailored for streaming TSE. Our approach introduces a Chunk-wise Interleaved Splicing Paradigm that ensures highly efficient and stable streaming inference. To ensure the coherence between the extracted speech segments, we design a historical context refinement mechanism that mitigates boundary discontinuities by leveraging historical information. Experiments on Libri2Mix show that while AR generative baseline exhibits performance degradation at low latencies, our approach maintains 100% stability and superior intelligibility. Furthermore, our streaming results are comparable to or even surpass offline baselines. Additionally, our model achieves a Real-Time-Factor (RTF) of 0.248 on consumer-level GPUs. This work provides empirical evidence that AR generative backbones are viable for latency-sensitive applications through the Chunk-wise Interleaved Splicing Paradigm.
- Abstract(参考訳): 生成モデルでは、ターゲット話者抽出(TSE)のための新しいベンチマークが設定されているが、グローバルコンテキストに依存しているため、リアルタイムアプリケーションへのデプロイが妨げられている。
ストリーミングシナリオへの直接的な適応は、トレーニングとストリーミング推論の深刻なミスマッチによる破滅的な推論性能の低下につながることが多い。
このギャップを埋めるために、ストリーミングTSEに適した最初の自己回帰(AR)モデルを提示する。
提案手法では,高効率かつ安定したストリーミング推論を実現するために,チャンクワイズ・インターリーブド・スプリシング・パラダイムを導入している。
抽出した音声セグメント間のコヒーレンスを確保するため,歴史的情報を利用して境界不連続を緩和する歴史的文脈改善機構を設計する。
Libri2Mixの実験では、AR生成ベースラインは低レイテンシで性能劣化を示すが、本手法は100%安定性と優れた知性を維持している。
さらに、ストリーミングの結果はオフラインのベースラインに匹敵するか、超えています。
さらに,コンシューマレベルのGPU上でのRTF(Real-Time-Factor)の0.248を実現している。
この研究は、Chunk-wise Interleaved Splicing Paradigmを通じて、レイテンシに敏感なアプリケーションにAR生成バックボーンが有効である、という実証的な証拠を提供する。
関連論文リスト
- Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models [58.3184497327891]
蒸留自己回帰(AR)ビデオモデルは、効率的なストリーミング生成を可能にするが、しばしば人間の視覚的嗜好に反する。
蒸留ARモデルに適した効率的なオンライン強化学習フレームワークであるAstrolabeを提案する。
論文 参考訳(メタデータ) (2026-03-17T18:32:18Z) - Squeezing More from the Stream : Learning Representation Online for Streaming Reinforcement Learning [14.799267729619428]
ストリーミング強化学習(RL)では、トランジッションが観察され、1回の更新直後に破棄される。
本稿では,SPR(Self-Predictive Representations)をストリーミングパイプラインに拡張して,観測フレームの有効性を最大化することを提案する。
本稿では,リプレイバッファの欠如による性能ギャップを埋めることで,よりリッチな表現を学習できることを示す。
論文 参考訳(メタデータ) (2026-02-10T04:06:32Z) - Deep Leakage with Generative Flow Matching Denoiser [54.05993847488204]
再建プロセスに先立って生成フローマッチング(FM)を組み込んだ新しい深部リーク攻撃(DL)を導入する。
当社のアプローチは、ピクセルレベル、知覚的、特徴に基づく類似度測定において、最先端の攻撃よりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-21T14:51:01Z) - End-to-End Training for Autoregressive Video Diffusion via Self-Resampling [63.84672807009907]
自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。
教師なしのフレームワークであるResampling Forcingを導入し、スクラッチから大規模まで自動回帰ビデオモデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:53:29Z) - REST: Diffusion-based Real-time End-to-end Streaming Talking Head Generation via ID-Context Caching and Asynchronous Streaming Distillation [41.34425148954312]
RESTは、トーキングヘッドジェネレーションのための自動回帰と拡散ベースのアプローチのギャップを埋めます。
RESTは、生成速度と全体的なパフォーマンスの両方において最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-12-12T02:28:52Z) - Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。