論文の概要: A DNN Based Post-Filter to Enhance the Quality of Coded Speech in MDCT
Domain
- arxiv url: http://arxiv.org/abs/2201.12039v1
- Date: Fri, 28 Jan 2022 11:08:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 16:34:18.658512
- Title: A DNN Based Post-Filter to Enhance the Quality of Coded Speech in MDCT
Domain
- Title(参考訳): MDCT領域における符号化音声の品質向上のためのDNNベースのポストフィルタ
- Authors: Kishan Gupta, Srikanth Korse, Bernd Edler, Guillaume Fuchs
- Abstract要約: 本稿では,MDCTドメインで直接動作するマスクベースのポストフィルタを提案する。
実数値マスクは量子化MDCT係数に適用され、比較的軽量な畳み込みエンコーダ・デコーダネットワークから推定される。
提案手法は,最近標準化された低遅延低複素度 (LC3) で16kbpsの最小係数で試される。
- 参考スコア(独自算出の注目度): 16.70806998451696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frequency domain processing, and in particular the use of Modified Discrete
Cosine Transform (MDCT), is the most widespread approach to audio coding.
However, at low bitrates, audio quality, especially for speech, degrades
drastically due to the lack of available bits to directly code the transform
coefficients. Traditionally, post-filtering has been used to mitigate artefacts
in the coded speech by exploiting a-priori information of the source and extra
transmitted parameters. Recently, data-driven post-filters have shown better
results, but at the cost of significant additional complexity and delay. In
this work, we propose a mask-based post-filter operating directly in MDCT
domain of the codec, inducing no extra delay. The real-valued mask is applied
to the quantized MDCT coefficients and is estimated from a relatively
lightweight convolutional encoder-decoder network. Our solution is tested on
the recently standardized low-delay, low-complexity codec (LC3) at lowest
possible bitrate of 16 kbps. Objective and subjective assessments clearly show
the advantage of this approach over the conventional post-filter, with an
average improvement of 10 MUSHRA points over the LC3 coded speech.
- Abstract(参考訳): 周波数領域処理、特にMDCT(Modified Discrete Cosine Transform)は、オーディオ符号化において最も広く使われている手法である。
しかし、低ビットレートでは、特に音声の音声品質は、変換係数を直接コードする利用可能なビットがないため、劇的に劣化する。
伝統的に、ポストフィルタは、ソースのa-priori情報と余分な送信パラメータを利用して、符号化された音声のアーティファクトを緩和するために使われてきた。
近年、データ駆動のポストフィルタはより良い結果を示しているが、複雑さと遅延が大幅に増大している。
本研究では,コーデックのmdctドメイン内で直接動作し,余分な遅延を生じさせないマスクベースのポストフィルタを提案する。
実数値マスクは量子化MDCT係数に適用され、比較的軽量な畳み込みエンコーダ・デコーダネットワークから推定される。
本手法は,最近標準化された低遅延低複雑コーデック (LC3) 上で16kbpsの最小ビットレートで試験する。
目的的および主観的評価は従来のポストフィルタよりもこのアプローチの利点を示し,LC3符号化音声よりも平均10MUSHRA点が向上した。
関連論文リスト
- NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文 参考訳(メタデータ) (2022-07-13T17:59:55Z) - Improved decoding of circuit noise and fragile boundaries of tailored
surface codes [61.411482146110984]
高速かつ高精度なデコーダを導入し、幅広い種類の量子誤り訂正符号で使用することができる。
我々のデコーダは、信仰マッチングと信念フィンドと呼ばれ、すべてのノイズ情報を活用し、QECの高精度なデモを解き放つ。
このデコーダは, 標準の正方形曲面符号に対して, 整形曲面符号において, より高いしきい値と低い量子ビットオーバーヘッドをもたらすことがわかった。
論文 参考訳(メタデータ) (2022-03-09T18:48:54Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T16:50:16Z) - Scalable and Efficient Neural Speech Coding [24.959825692325445]
本研究では,音声圧縮のためのスケーラブルかつ効率的なニューラル波形(NWC)を提案する。
提案するcnnオートエンコーダは、量子化と符号化を訓練可能なモジュールとして定義する。
他の自己回帰型デコーダベースのニューラルスピーチと比較すると、デコーダのアーキテクチャは大幅に小さい。
論文 参考訳(メタデータ) (2021-03-27T00:10:16Z) - Low Bit-Rate Wideband Speech Coding: A Deep Generative Model based
Approach [4.02517560480215]
従来の低ビットレート音声符号化方式は、8kHzでのみ狭帯域音声を扱う。
本稿では,メル周波数ケプストラム係数(MFCC)のベクトル量子化(VQ)による新しい手法を提案する。
これは、最先端の古典的なMELPegressiveと比較して、低ビットレートで優れた音声品質を提供する。
論文 参考訳(メタデータ) (2021-02-04T14:37:16Z) - Enhancement Of Coded Speech Using a Mask-Based Post-Filter [9.324642081509754]
時間周波数領域におけるマスキングに依存したデータ駆動ポストフィルタを提案する。
完全に接続されたニューラルネットワーク(FCNN)、畳み込みエンコーダデコーダ(CED)ネットワーク、長い短期記憶(LSTM)ネットワークは、時間周波数ビン当たりの実数値マスクを推定するために不必要である。
論文 参考訳(メタデータ) (2020-10-12T09:48:09Z) - Optimization of data-driven filterbank for automatic speaker
verification [8.175789701289512]
与えられた音声データからフィルタパラメータを最適化する新しいデータ駆動型フィルタ設計法を提案する。
提案手法の主な利点は、ラベルなし音声データの量が非常に少ないことである。
提案するフィルタバンクを用いた音響特性は,既存のメル周波数ケプストラム係数 (MFCC) や音声信号に基づく周波数ケプストラム係数 (SFCC) よりも優れていた。
論文 参考訳(メタデータ) (2020-07-21T11:42:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。