論文の概要: GenTSE: Enhancing Target Speaker Extraction via a Coarse-to-Fine Generative Language Model
- arxiv url: http://arxiv.org/abs/2512.20978v1
- Date: Wed, 24 Dec 2025 06:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.697872
- Title: GenTSE: Enhancing Target Speaker Extraction via a Coarse-to-Fine Generative Language Model
- Title(参考訳): GenTSE: 連続生成言語モデルによるターゲット話者抽出の強化
- Authors: Haoyang Li, Xuyi Zhuang, Azmat Adnan, Ye Ni, Wei Rao, Shreyas Gopal, Eng Siong Chng,
- Abstract要約: 我々は,TSEのための2段階デコーダのみのジェネレーションLMアプローチであるGenTSEを提案する。
意味論と音響学の分離は、復号化を安定化させ、より忠実で内容に整合したターゲットスピーチをもたらす。
Libri2Mixの実験は、GenTSEが従来のLMベースのシステムよりも、音声品質、知性、話者の一貫性を上回っていることを示している。
- 参考スコア(独自算出の注目度): 35.12859489567766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language Model (LM)-based generative modeling has emerged as a promising direction for TSE, offering potential for improved generalization and high-fidelity speech. We present GenTSE, a two-stage decoder-only generative LM approach for TSE: Stage-1 predicts coarse semantic tokens, and Stage-2 generates fine acoustic tokens. Separating semantics and acoustics stabilizes decoding and yields more faithful, content-aligned target speech. Both stages use continuous SSL or codec embeddings, offering richer context than discretized-prompt methods. To reduce exposure bias, we employ a Frozen-LM Conditioning training strategy that conditions the LMs on predicted tokens from earlier checkpoints to reduce the gap between teacher-forcing training and autoregressive inference. We further employ DPO to better align outputs with human perceptual preferences. Experiments on Libri2Mix show that GenTSE surpasses previous LM-based systems in speech quality, intelligibility, and speaker consistency.
- Abstract(参考訳): 言語モデル(LM)に基づく生成モデリングはTSEにとって有望な方向として現れ、一般化と高忠実度音声の改善の可能性を秘めている。
我々は、TSEのための2段階のデコーダのみ生成型LMアプローチであるGenTSEについて述べる。
意味論と音響学の分離は復号化を安定化させ、より忠実で内容に整合したターゲット音声を生み出す。
どちらのステージもSSLやコーデックの埋め込みを使用しており、離散化プロンプトメソッドよりもリッチなコンテキストを提供する。
曝露バイアスを低減するため,教師の強制訓練と自己回帰推論のギャップを軽減するために,早期チェックポイントから予測トークンにLMを条件付けするFrozen-LMコンディショニングトレーニング戦略を採用した。
さらに、人間の知覚的嗜好とアウトプットの整合性を改善するためにDPOを使用します。
Libri2Mixの実験では、GenTSEは従来のLMベースのシステムよりも、音声品質、知性、話者の整合性に優れていた。
関連論文リスト
- Language Model Based Text-to-Audio Generation: Anti-Causally Aligned Collaborative Residual Transformers [24.722647001947923]
因果条件付き複数孤立トランスフォーマーと強化学習による反因果アライメントを用いた新しいLMベースのフレームワークを提案する。
その結果,Sieren は既存の LM および拡散型 T2A システムより優れており,最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-10-06T08:26:55Z) - High-Fidelity Speech Enhancement via Discrete Audio Tokens [35.61634772862795]
DAC-SE1は言語モデルに基づくSEフレームワークで、離散的な高解像度オーディオ表現を利用する。
実験の結果,DAC-SE1は客観的指標とMUSHRAによる人的評価の両方において,最先端の自己回帰SE法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-10-02T16:38:05Z) - FlowTSE: Target Speaker Extraction with Flow Matching [16.054014378418316]
FlowTSEは、条件付きフローマッチングに基づく、シンプルだが効果的なTSEアプローチである。
位相再構成が重要であるタスクに対しては、混合信号の複雑なSTFTを条件とした新しいボコーダを提案する。
論文 参考訳(メタデータ) (2025-05-20T15:01:30Z) - MTLM: Incorporating Bidirectional Text Information to Enhance Language Model Training in Speech Recognition Systems [8.971049629873185]
MTLMは、3つのトレーニング目標を通じて一方向と双方向の方法を統一する新しいトレーニングパラダイムである。
浅い融合、一方向/双方向のn-best再構成など、複数の復号化戦略をサポートしている。
LibriSpeechデータセットの実験は、MTLMが複数のデコード戦略で一方向トレーニングを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-14T10:21:10Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。