論文の概要: Speech Enhancement Using Continuous Embeddings of Neural Audio Codec
- arxiv url: http://arxiv.org/abs/2502.16240v1
- Date: Sat, 22 Feb 2025 14:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:56:14.138332
- Title: Speech Enhancement Using Continuous Embeddings of Neural Audio Codec
- Title(参考訳): ニューラルオーディオコーデックの連続埋め込みを用いた音声強調
- Authors: Haoyang Li, Jia Qi Yip, Tianyu Fan, Eng Siong Chng,
- Abstract要約: ニューラルオーディオコーデック(NAC)モデルの最近の進歩は、音声強調(SE)を含む様々な音声処理タスクでの使用にインスピレーションを与えている。
本研究では,事前学習されたNACエンコーダの事前量子化出力を活用することで,新しい効率的なSE手法を提案する。
本手法は3.94 の低 GMAC を実現し,シミュレーションクラウドベースの音声伝送環境において,Sepformer と比較して18 倍の複雑性を実現する。
- 参考スコア(独自算出の注目度): 27.93548441414568
- License:
- Abstract: Recent advancements in Neural Audio Codec (NAC) models have inspired their use in various speech processing tasks, including speech enhancement (SE). In this work, we propose a novel, efficient SE approach by leveraging the pre-quantization output of a pretrained NAC encoder. Unlike prior NAC-based SE methods, which process discrete speech tokens using Language Models (LMs), we perform SE within the continuous embedding space of the pretrained NAC, which is highly compressed along the time dimension for efficient representation. Our lightweight SE model, optimized through an embedding-level loss, delivers results comparable to SE baselines trained on larger datasets, with a significantly lower real-time factor of 0.005. Additionally, our method achieves a low GMAC of 3.94, reducing complexity 18-fold compared to Sepformer in a simulated cloud-based audio transmission environment. This work highlights a new, efficient NAC-based SE solution, particularly suitable for cloud applications where NAC is used to compress audio before transmission. Copyright 20XX IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works.
- Abstract(参考訳): ニューラルオーディオコーデック(NAC)モデルの最近の進歩は、音声強調(SE)を含む様々な音声処理タスクでの使用にインスピレーションを与えている。
本研究では,事前学習されたNACエンコーダの事前量子化出力を活用することで,新しい効率的なSE手法を提案する。
言語モデル(LM)を用いて離散音声トークンを処理する従来のNACベースのSE手法とは異なり、事前学習されたNACの連続埋め込み空間内でSEを実行する。
我々の軽量SEモデルは、埋め込みレベルの損失によって最適化され、より大きなデータセットでトレーニングされたSEベースラインに匹敵する結果をもたらします。
さらに,本手法は3.94の低GMACを実現し,シミュレーションクラウドベースの音声伝送環境において,Sepformerと比較して18倍の複雑性を実現する。
この作業は、NACベースの新しい効率的なSEソリューションを強調し、特にNACが送信前にオーディオを圧縮するために使用されるクラウドアプリケーションに適している。
著作権20XXIEEE。
この素材の個人使用は許可されている。
IEEEからの許可は、広告又は宣伝目的のためにこの資料を再印刷または再出版し、新しい集団作品を作成し、サーバまたはリストの再販売または再配布し、この作品の著作権のあるコンポーネントを他の作品で再利用することを含む、現在又は将来のメディアのあらゆる用途で取得されなければならない。
関連論文リスト
- FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。
デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文 参考訳(メタデータ) (2025-02-06T19:24:50Z) - Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model [35.171785986428425]
雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。
我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。
実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T20:09:50Z) - LEAN: Light and Efficient Audio Classification Network [1.5070398746522742]
音声分類のための軽量デバイス深層学習モデルLEANを提案する。
LEANは、ウェーブニアライメント(Wave realignment)と呼ばれる生波形ベースの時間的特徴抽出器と、ログメルベースの事前学習YAMNetから構成される。
トレーニング可能なウェーブエンコーダと事前学習されたYAMNetとクロスアテンションに基づく時間的アライメントを組み合わせることで、より少ないメモリフットプリントを持つ下流オーディオ分類タスクにおける競合性能が得られることを示す。
論文 参考訳(メタデータ) (2023-05-22T04:45:04Z) - UNFUSED: UNsupervised Finetuning Using SElf supervised Distillation [53.06337011259031]
音声分類に自己教師付き学習を活用する新しい手法UnFuSeDを提案する。
エンコーダを用いて、実際の微調整ステップの前に、教師なしの微調整のための擬似ラベルを生成する。
UnFuSeDはLAPEベンチマークで最先端の結果を達成し、すべてのベースラインを大きく上回っている。
論文 参考訳(メタデータ) (2023-03-10T02:43:36Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - Unsupervised Representation Learning via Neural Activation Coding [66.65837512531729]
我々は、下流アプリケーションのためのラベルなしデータから深部表現を学習するための新しいアプローチとして、ニューラルアクティベーションコーディング(NAC)を提案する。
我々はNACが連続したデータ表現と離散的なデータ表現の両方を学習し、それぞれ下流の2つのタスクで評価することを示した。
論文 参考訳(メタデータ) (2021-12-07T21:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。