論文の概要: SLM-SS: Speech Language Model for Generative Speech Separation
- arxiv url: http://arxiv.org/abs/2601.19533v1
- Date: Tue, 27 Jan 2026 12:22:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.313124
- Title: SLM-SS: Speech Language Model for Generative Speech Separation
- Title(参考訳): SLM-SS:生成音声分離のための音声モデル
- Authors: Tianhua Li, Chenda Li, Wei Wang, Xin Zhou, Xihui Chen, Jianqing Gao, Yanmin Qian,
- Abstract要約: 音声分離に言語モデルを適用する新しいアプローチであるSLM-SSを提案する。
我々は,SSを個別のマルチコードブックシーケンス生成とみなし,量子化音声混合物をターゲットトークンにマッピングするコーダモデルを用いた。
提案手法は, 音声の理解度を著しく向上させ, 様々な下流課題における言語的整合性を向上させる。
- 参考スコア(独自算出の注目度): 47.06391017558454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech separation (SS) has advanced significantly with neural network-based methods, showing improved performance on signal-level metrics. However, these methods often struggle to maintain speech intelligibility in the separated signals, which can negatively affect the performance of downstream tasks such as speech recognition. In this work, we propose SLM-SS, a novel approach that applies speech language models to SS, aiming to enhance the intelligibility and coherence of the separated signals. We frame SS as discrete multi-codebook sequence generation, using Encoder-Decoder models to map quantized speech mixtures to target tokens. In addition to the autoregressive modeling strategy, we introduce a non-autoregressive model to improve decoding efficiency for residual tokens. Experimental results on the LibriMix dataset demonstrate that our approach shows significantly better preservation of speech intelligibility, leading to improved linguistic consistency in a variety of downstream tasks compared to existing approaches.
- Abstract(参考訳): 音声分離(SS)は、ニューラルネットワークベースの手法で大幅に進歩し、信号レベルメトリクスのパフォーマンスが向上した。
しかし,これらの手法は,音声認識などの下流タスクの性能に悪影響を及ぼすおそれのある,分離した信号における音声の不明瞭さの維持に苦慮することが多い。
本研究では,SSに音声認識モデルを適用する新しい手法であるSLM-SSを提案する。
Encoder-Decoderモデルを用いて、SSを個別のマルチコードブックシーケンス生成としてフレーム化し、量子化音声混合物をターゲットトークンにマッピングする。
自己回帰モデリング戦略に加えて,残余トークンの復号効率を向上させるための非自己回帰モデルを導入する。
LibriMixデータセットを用いた実験結果から,本手法は音声の可聴性の保存性が著しく向上し,既存の手法と比較して,下流タスクにおける言語的整合性が向上することが示唆された。
関連論文リスト
- MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation [78.75809158246723]
本稿では,SLGのためのマスク付き拡散型言語モデルであるMaDiSについて述べる。
また,トークン・ラテント・ヘアリング・3次元空間の目的から共同で学習する3段階のクロスモーダル事前学習手法を導入する。
MaDiSはDTWエラーと新たに導入された2つのメトリクスであるSiBLEUとSiCLIPを含む複数のメトリクスで優れたパフォーマンスを実現し、推論レイテンシを30%近く削減している。
論文 参考訳(メタデータ) (2026-01-27T13:06:47Z) - LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization [8.365515332927444]
近年の音声トークン化手法は,低レベル音響から意味情報を分離し,言語モデルとの整合性を向上することを目的としている。
新規なセマンティック蒸留を導入する音声トークン化手法であるLM-SPTを提案する。
LM-SPTは,ベースラインに比べて高い再現性が得られることを示す。
論文 参考訳(メタデータ) (2025-06-20T04:15:14Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models [45.791472119671916]
音声言語モデル(SLM)はテキストと音声を処理し、同時に音声の理解と生成を可能にする。
DC-Spinは音声信号とSLMトークンをブリッジすることで音声のトークン化を改善することを目的としている。
本稿では,再学習や劣化を伴わずに,ストリーム可能なDC-Spinを実現するためのチャンクワイズ手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T17:43:13Z) - dMel: Speech Tokenization made Simple [16.679015298503593]
そこで本研究では,メルフィルタバンクチャネルを離散化した新しい音声表現(dmel)を提案する。
提案手法は, 音声コンテンツの保存, ドメイン外データの堅牢性, 学習自由, 自然, ストリーム可能な表現の両面において, 優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - SLMGAN: Exploiting Speech Language Model Representations for
Unsupervised Zero-Shot Voice Conversion in GANs [22.522376665078248]
本稿では,GAN(Generative Adversarial Network)フレームワークにおいて,SLM表現を識別タスクに活用するための新しいアプローチであるSLMGANを提案する。
StarGANv2-VCをベースとして、新しいSLMベースのWavLMディスクリミネータをメルベースのディスクリミネータに加え、新たに設計されたSLM特徴マッチング損失関数も追加します。
主観評価の結果,SLMGANは既存のゼロショット音声変換モデルよりも自然性に優れ,類似性も同等であることがわかった。
論文 参考訳(メタデータ) (2023-07-18T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。