論文の概要: Lightweight Wasserstein Audio-Visual Model for Unified Speech Enhancement and Separation
- arxiv url: http://arxiv.org/abs/2512.06689v1
- Date: Sun, 07 Dec 2025 06:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.469877
- Title: Lightweight Wasserstein Audio-Visual Model for Unified Speech Enhancement and Separation
- Title(参考訳): 統一音声強調分離のための軽量ワッサースタイン音響画像モデル
- Authors: Jisoo Park, Seonghak Lee, Guisik Kim, Taewoo Kim, Junseok Kwon,
- Abstract要約: 音声強調(SE)と音声分離(SS)は伝統的に、音声処理において異なるタスクとして扱われてきた。
単一モデルでSEとSSを統一する軽量かつ教師なしオーディオ視覚フレームワークUniVoiceLiteを提案する。
UniVoiceLiteはノイズとマルチスピーカの両方のシナリオで高いパフォーマンスを実現し、効率と堅牢な一般化を組み合わせた。
- 参考スコア(独自算出の注目度): 26.48174619097384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Enhancement (SE) and Speech Separation (SS) have traditionally been treated as distinct tasks in speech processing. However, real-world audio often involves both background noise and overlapping speakers, motivating the need for a unified solution. While recent approaches have attempted to integrate SE and SS within multi-stage architectures, these approaches typically involve complex, parameter-heavy models and rely on supervised training, limiting scalability and generalization. In this work, we propose UniVoiceLite, a lightweight and unsupervised audio-visual framework that unifies SE and SS within a single model. UniVoiceLite leverages lip motion and facial identity cues to guide speech extraction and employs Wasserstein distance regularization to stabilize the latent space without requiring paired noisy-clean data. Experimental results demonstrate that UniVoiceLite achieves strong performance in both noisy and multi-speaker scenarios, combining efficiency with robust generalization. The source code is available at https://github.com/jisoo-o/UniVoiceLite.
- Abstract(参考訳): 音声強調(SE)と音声分離(SS)は伝統的に、音声処理において異なるタスクとして扱われてきた。
しかし、現実のオーディオは、しばしば背景ノイズと重なり合うスピーカーの両方を伴い、統一されたソリューションの必要性を動機付けている。
近年のアプローチはSEとSSを多段階アーキテクチャに統合しようと試みているが、これらのアプローチは一般的に複雑でパラメータの多いモデルを含み、教師付きトレーニング、スケーラビリティと一般化の制限に依存している。
本研究では,単一モデルでSEとSSを統一する軽量かつ教師なしオーディオ視覚フレームワークUniVoiceLiteを提案する。
UniVoiceLiteは、唇の動きと顔の同一性を利用して音声抽出を誘導し、ワッサーシュタイン距離正規化を用いて、ペアノイズクリーンデータを必要としない遅延空間を安定化する。
実験結果から、UniVoiceLiteは雑音とマルチスピーカの両方のシナリオで高い性能を達成し、効率と堅牢な一般化を組み合わせていることがわかった。
ソースコードはhttps://github.com/jisoo-o/UniVoiceLite.comで入手できる。
関連論文リスト
- Unifying Speech Recognition, Synthesis and Conversion with Autoregressive Transformers [8.890811356340953]
General-Purpose Audio (GPA) は、単一の大規模言語モデル(LLM)アーキテクチャに複数のコア音声タスクを統合する統合オーディオ基盤モデルである。
GPAは、共有された離散オーディオトークン空間で動作し、命令駆動タスク誘導をサポートし、単一の自己回帰モデルが柔軟にTS、ASR、VCを実現する。
論文 参考訳(メタデータ) (2026-01-15T13:47:55Z) - UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice [33.43869151508715]
表現型S2STのための新しい単一ステージフレームワークUniSSを紹介する。
提案手法は、注意深く設計された音声意味とスタイルモデリングを特徴とする。
我々は44.8k時間のデータからなる大規模で高品質な表現型S2STデータセットUniSTをリリースする。
論文 参考訳(メタデータ) (2025-09-25T13:30:46Z) - USAD: Universal Speech and Audio Representation via Distillation [56.91647396619358]
Universal Speech and Audio Distillation (USAD)は、音声表現学習における統一的なアプローチである。
USADは音声、音声、音楽の様々なタイプを単一のモデルに統合する。
論文 参考訳(メタデータ) (2025-06-23T17:02:00Z) - SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline [38.17669452829079]
SoloSpeechは、圧縮、抽出、再構築、修正プロセスを統合するカスケード生成パイプラインである。
ドメイン外データと実世界のシナリオに例外的な一般化を示しながら、ターゲット音声抽出における新たな最先端の知性および品質を実現する。
論文 参考訳(メタデータ) (2025-05-25T21:00:48Z) - Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。
テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文 参考訳(メタデータ) (2025-02-24T15:16:34Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。