論文の概要: Towards Audio Codec-based Speech Separation
- arxiv url: http://arxiv.org/abs/2406.12434v1
- Date: Tue, 18 Jun 2024 09:29:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:37:07.983683
- Title: Towards Audio Codec-based Speech Separation
- Title(参考訳): 音声コーデックに基づく音声分離に向けて
- Authors: Jia Qi Yip, Shengkui Zhao, Dianwen Ng, Eng Siong Chng, Bin Ma,
- Abstract要約: 音声分離は波形マスキングタスクである。
そこで我々は,NAC の埋め込み空間内で SS を行う,Audio Codec ベースの SS の新たなタスクを提案する。
推論では、CodecformerはMACの52倍の削減を実現し、Sepformerのクラウドデプロイメントに匹敵する分離性能を実現している。
- 参考スコア(独自算出の注目度): 24.80078830607848
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent improvements in neural audio codec (NAC) models have generated interest in adopting pre-trained codecs for a variety of speech processing applications to take advantage of the efficiencies gained from high compression, but these have yet been applied to the speech separation (SS) task. SS can benefit from high compression because the compute required for traditional SS models makes them impractical for many edge computing use cases. However, SS is a waveform-masking task where compression tends to introduce distortions that severely impact performance. Here we propose a novel task of Audio Codec-based SS, where SS is performed within the embedding space of a NAC, and propose a new model, Codecformer, to address this task. At inference, Codecformer achieves a 52x reduction in MAC while producing separation performance comparable to a cloud deployment of Sepformer. This method charts a new direction for performing efficient SS in practical scenarios.
- Abstract(参考訳): ニューラルオーディオコーデック(NAC)モデルの最近の改良は、様々な音声処理アプリケーションに事前訓練されたコーデックを採用することに関心を惹き付け、高い圧縮から得られる効率を生かしたが、これらはまだ音声分離(SS)タスクには適用されていない。
従来のSSモデルに必要な計算処理は、エッジコンピューティングのユースケースの多くにおいて実用的ではないため、SSは高い圧縮の恩恵を受けることができる。
しかし、SSは、圧縮がパフォーマンスに深刻な影響を与える歪みをもたらす傾向にある波形マスキングタスクである。
本稿では,NACの埋め込み空間内でSSが実行されるAudio CodecベースのSSの新しいタスクを提案し,その課題に対処する新しいモデルであるCodecformerを提案する。
推論では、CodecformerはMACの52倍の削減を実現し、Sepformerのクラウドデプロイメントに匹敵する分離性能を実現している。
本手法は,実運用シナリオにおいて効率的なSSを実現するための新たな方向性を示す。
関連論文リスト
- VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - ContextGS: Compact 3D Gaussian Splatting with Anchor Level Context Model [77.71796503321632]
我々は3DGS表現のアンカーレベルにコンテキストモデルを導入し,バニラ3DGSと比較して100倍以上のサイズの縮小を実現した。
我々の研究は3DGS表現のためのアンカーレベルのコンテキストモデルを開拓し、バニラ3DGSに比べて100倍以上、そして最新の最先端のScaffold-GSに比べて15倍の大幅なサイズ縮小を実現した。
論文 参考訳(メタデータ) (2024-05-31T09:23:39Z) - Sandwiched Video Compression: Efficiently Extending the Reach of
Standard Codecs with Neural Wrappers [11.968545394054816]
本稿では,標準的なビデオにニューラルネットワークをラップするビデオ圧縮システムを提案する。
ネットワークは、速度歪み損失関数を最適化するために共同で訓練される。
HEVCと同等品質で30%の改善が見られた。
論文 参考訳(メタデータ) (2023-03-20T22:03:44Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Flexible Neural Image Compression via Code Editing [8.499248314440557]
ニューラル画像圧縮(NIC)は、レート歪み(R-D)性能において従来の画像コーデックよりも優れていた。
通常、R-D曲線の各点に専用エンコーダとデコーダのペアが必要であるため、実際の展開を妨げている。
本稿では,セミアモタイズされた推論と適応量子化に基づくNICの高フレキシブルな符号化手法であるCode Editingを提案する。
論文 参考訳(メタデータ) (2022-09-19T09:41:43Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - MAE-AST: Masked Autoencoding Audio Spectrogram Transformer [11.814012909512307]
本稿では,音声と音声の分類のための音声スペクトル変換器(SSAST)モデルに対する簡易かつ強力な改良を提案する。
我々は、SSASTが事前トレーニング中に非常に高いマスキング比(75%)を使用するという知見を活用する。
MAEライクな事前トレーニングは,バニラSSASTよりも3倍のスピードアップと2倍のメモリ使用量の削減を可能にする。
論文 参考訳(メタデータ) (2022-03-30T22:06:13Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Neural Network Compression Via Sparse Optimization [23.184290795230897]
スパース最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。
我々は、CIFAR10のVGG16とImageNetのResNet50で、同じレベルの精度で、最大7.2倍と2.9倍のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-11-10T03:03:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。