論文の概要: Autoregressive Speech Enhancement via Acoustic Tokens
- arxiv url: http://arxiv.org/abs/2507.12825v1
- Date: Thu, 17 Jul 2025 06:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.368477
- Title: Autoregressive Speech Enhancement via Acoustic Tokens
- Title(参考訳): 音響トークンによる自己回帰音声強調
- Authors: Luca Della Libera, Cem Subakan, Mirco Ravanelli,
- Abstract要約: 音声強調のための音響トークンの性能について検討し,新しいトランスデューサに基づく自己回帰アーキテクチャを提案する。
VoiceBankとLibri1データセットの実験では、話者識別の保存の観点から、音響トークンがセマンティックトークンより優れていることが示されている。
- 参考スコア(独自算出の注目度): 12.77742493025067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In speech processing pipelines, improving the quality and intelligibility of real-world recordings is crucial. While supervised regression is the primary method for speech enhancement, audio tokenization is emerging as a promising alternative for a smooth integration with other modalities. However, research on speech enhancement using discrete representations is still limited. Previous work has mainly focused on semantic tokens, which tend to discard key acoustic details such as speaker identity. Additionally, these studies typically employ non-autoregressive models, assuming conditional independence of outputs and overlooking the potential improvements offered by autoregressive modeling. To address these gaps we: 1) conduct a comprehensive study of the performance of acoustic tokens for speech enhancement, including the effect of bitrate and noise strength; 2) introduce a novel transducer-based autoregressive architecture specifically designed for this task. Experiments on VoiceBank and Libri1Mix datasets show that acoustic tokens outperform semantic tokens in terms of preserving speaker identity, and that our autoregressive approach can further improve performance. Nevertheless, we observe that discrete representations still fall short compared to continuous ones, highlighting the need for further research in this area.
- Abstract(参考訳): 音声処理パイプラインでは、実世界の録音の品質と知性の向上が不可欠である。
教師付き回帰は音声強調の主要な方法であるが、他のモーダルとのスムーズな統合の代替手段として、音声トークン化が期待されている。
しかし、離散表現を用いた音声強調の研究はまだ限られている。
これまでの研究は主にセマンティックトークンに重点を置いてきたが、これは話者識別のような重要な音響的詳細を放棄する傾向がある。
さらに、これらの研究は一般的に非自己回帰モデルを使用し、出力の条件付き独立性を仮定し、自己回帰モデルによって提供される潜在的な改善を見越す。
これらのギャップに対処するために、私たちはこう考えています。
1) 音声強調のための音響トークンの性能について, ビットレートと雑音強度の影響を含め, 総合的に検討する。
2) この課題に特化して設計されたトランスデューサベースの自己回帰アーキテクチャを導入する。
VoiceBankとLibri1Mixデータセットの実験では、音響トークンは話者識別の保存の観点からセマンティックトークンよりも優れており、我々の自己回帰的アプローチはパフォーマンスをさらに向上させることができる。
それでも、離散表現は連続表現に比べて依然として不足しており、この分野におけるさらなる研究の必要性を強調している。
関連論文リスト
- Speech Tokenizer is Key to Consistent Representation [0.0]
音声のトークン化はデジタル音声処理において重要であり、連続した音声信号を様々な計算タスクのための離散単位に変換する。
本稿では,言語情報と音響情報の両方を同時に符号化し,韻律的・感情的な内容を保存する高度アプローチを提案する。
経験的評価は、追加の訓練を必要とせず、音声符号化、音声変換、感情認識、多モーダル言語モデリングにおいてその効果を示す。
論文 参考訳(メタデータ) (2025-07-09T12:43:39Z) - Discrete Audio Tokens: More Than a Survey! [107.69720675124255]
本稿では,離散型音声トークンの体系的レビューとベンチマークを行う。
音声、音楽、一般的なオーディオドメインをカバーしている。
本稿では,エンコーダデコーダ,量子化技術,トレーニングパラダイム,ストリーム性,アプリケーションドメインに基づくトークン化アプローチの分類法を提案する。
論文 参考訳(メタデータ) (2025-06-12T01:35:43Z) - dMel: Speech Tokenization made Simple [16.679015298503593]
そこで本研究では,メルフィルタバンクチャネルを離散化した新しい音声表現(dmel)を提案する。
提案手法は, 音声コンテンツの保存, ドメイン外データの堅牢性, 学習自由, 自然, ストリーム可能な表現の両面において, 優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Data Augmentation based Consistency Contrastive Pre-training for
Automatic Speech Recognition [18.303072203996347]
自動音声認識(ASR)タスクにおいて、自己教師付き音響事前学習は驚くべき結果を得た。
音響事前学習法の多くは、コントラスト学習を用いて音響表現を学習する。
本稿では,音声事前学習のためのデータ拡張を利用して,新しいコントラスト学習法(CCL)を設計する。
論文 参考訳(メタデータ) (2021-12-23T13:23:17Z) - Augmentation adversarial training for self-supervised speaker
recognition [49.47756927090593]
話者ラベルのない頑健な話者認識モデルを訓練する。
VoxCelebとVOiCESデータセットの実験は、セルフスーパービジョンを使用した以前の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-23T15:49:52Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。