論文の概要: Lightweight Wasserstein Audio-Visual Model for Unified Speech Enhancement and Separation
- arxiv url: http://arxiv.org/abs/2512.06689v1
- Date: Sun, 07 Dec 2025 06:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.469877
- Title: Lightweight Wasserstein Audio-Visual Model for Unified Speech Enhancement and Separation
- Title(参考訳): 統一音声強調分離のための軽量ワッサースタイン音響画像モデル
- Authors: Jisoo Park, Seonghak Lee, Guisik Kim, Taewoo Kim, Junseok Kwon,
- Abstract要約: 音声強調(SE)と音声分離(SS)は伝統的に、音声処理において異なるタスクとして扱われてきた。
単一モデルでSEとSSを統一する軽量かつ教師なしオーディオ視覚フレームワークUniVoiceLiteを提案する。
UniVoiceLiteはノイズとマルチスピーカの両方のシナリオで高いパフォーマンスを実現し、効率と堅牢な一般化を組み合わせた。
- 参考スコア(独自算出の注目度): 26.48174619097384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Enhancement (SE) and Speech Separation (SS) have traditionally been treated as distinct tasks in speech processing. However, real-world audio often involves both background noise and overlapping speakers, motivating the need for a unified solution. While recent approaches have attempted to integrate SE and SS within multi-stage architectures, these approaches typically involve complex, parameter-heavy models and rely on supervised training, limiting scalability and generalization. In this work, we propose UniVoiceLite, a lightweight and unsupervised audio-visual framework that unifies SE and SS within a single model. UniVoiceLite leverages lip motion and facial identity cues to guide speech extraction and employs Wasserstein distance regularization to stabilize the latent space without requiring paired noisy-clean data. Experimental results demonstrate that UniVoiceLite achieves strong performance in both noisy and multi-speaker scenarios, combining efficiency with robust generalization. The source code is available at https://github.com/jisoo-o/UniVoiceLite.
- Abstract(参考訳): 音声強調(SE)と音声分離(SS)は伝統的に、音声処理において異なるタスクとして扱われてきた。
しかし、現実のオーディオは、しばしば背景ノイズと重なり合うスピーカーの両方を伴い、統一されたソリューションの必要性を動機付けている。
近年のアプローチはSEとSSを多段階アーキテクチャに統合しようと試みているが、これらのアプローチは一般的に複雑でパラメータの多いモデルを含み、教師付きトレーニング、スケーラビリティと一般化の制限に依存している。
本研究では,単一モデルでSEとSSを統一する軽量かつ教師なしオーディオ視覚フレームワークUniVoiceLiteを提案する。
UniVoiceLiteは、唇の動きと顔の同一性を利用して音声抽出を誘導し、ワッサーシュタイン距離正規化を用いて、ペアノイズクリーンデータを必要としない遅延空間を安定化する。
実験結果から、UniVoiceLiteは雑音とマルチスピーカの両方のシナリオで高い性能を達成し、効率と堅牢な一般化を組み合わせていることがわかった。
ソースコードはhttps://github.com/jisoo-o/UniVoiceLite.comで入手できる。
関連論文リスト
- UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice [33.43869151508715]
表現型S2STのための新しい単一ステージフレームワークUniSSを紹介する。
提案手法は、注意深く設計された音声意味とスタイルモデリングを特徴とする。
我々は44.8k時間のデータからなる大規模で高品質な表現型S2STデータセットUniSTをリリースする。
論文 参考訳(メタデータ) (2025-09-25T13:30:46Z) - USAD: Universal Speech and Audio Representation via Distillation [56.91647396619358]
Universal Speech and Audio Distillation (USAD)は、音声表現学習における統一的なアプローチである。
USADは音声、音声、音楽の様々なタイプを単一のモデルに統合する。
論文 参考訳(メタデータ) (2025-06-23T17:02:00Z) - SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline [38.17669452829079]
SoloSpeechは、圧縮、抽出、再構築、修正プロセスを統合するカスケード生成パイプラインである。
ドメイン外データと実世界のシナリオに例外的な一般化を示しながら、ターゲット音声抽出における新たな最先端の知性および品質を実現する。
論文 参考訳(メタデータ) (2025-05-25T21:00:48Z) - Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。
テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文 参考訳(メタデータ) (2025-02-24T15:16:34Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。