論文の概要: Scalable and Efficient Neural Speech Coding
- arxiv url: http://arxiv.org/abs/2103.14776v1
- Date: Sat, 27 Mar 2021 00:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 15:33:23.130465
- Title: Scalable and Efficient Neural Speech Coding
- Title(参考訳): スケーラブルで効率的なニューラル音声符号化
- Authors: Kai Zhen, Jongmo Sung, Mi Suk Lee, Seungkwon Beak, Minje Kim
- Abstract要約: 本研究では,音声圧縮のためのスケーラブルかつ効率的なニューラル波形(NWC)を提案する。
提案するcnnオートエンコーダは、量子化と符号化を訓練可能なモジュールとして定義する。
他の自己回帰型デコーダベースのニューラルスピーチと比較すると、デコーダのアーキテクチャは大幅に小さい。
- 参考スコア(独自算出の注目度): 24.959825692325445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents a scalable and efficient neural waveform codec (NWC) for
speech compression. We formulate the speech coding problem as an autoencoding
task, where a convolutional neural network (CNN) performs encoding and decoding
as its feedforward routine. The proposed CNN autoencoder also defines
quantization and entropy coding as a trainable module, so the coding artifacts
and bitrate control are handled during the optimization process. We achieve
efficiency by introducing compact model architectures to our fully
convolutional network model, such as gated residual networks and depthwise
separable convolution. Furthermore, the proposed models are with a scalable
architecture, cross-module residual learning (CMRL), to cover a wide range of
bitrates. To this end, we employ the residual coding concept to concatenate
multiple NWC autoencoding modules, where an NWC module performs residual coding
to restore any reconstruction loss that its preceding modules have created.
CMRL can scale down to cover lower bitrates as well, for which it employs
linear predictive coding (LPC) module as its first autoencoder. We redefine
LPC's quantization as a trainable module to enhance the bit allocation tradeoff
between LPC and its following NWC modules. Compared to the other autoregressive
decoder-based neural speech coders, our decoder has significantly smaller
architecture, e.g., with only 0.12 million parameters, more than 100 times
smaller than a WaveNet decoder. Compared to the LPCNet-based speech codec,
which leverages the speech production model to reduce the network complexity in
low bitrates, ours can scale up to higher bitrates to achieve transparent
performance. Our lightweight neural speech coding model achieves comparable
subjective scores against AMR-WB at the low bitrate range and provides
transparent coding quality at 32 kbps.
- Abstract(参考訳): 本稿では,スケーラブルで効率的な音声圧縮用ニューラル波形コーデック(nwc)を提案する。
音声符号化問題を自動符号化タスクとして定式化し、畳み込みニューラルネットワーク(CNN)がフィードフォワードルーチンとして符号化と復号を行う。
提案したCNNオートエンコーダは、量子化とエントロピー符号化をトレーニング可能なモジュールとして定義し、最適化プロセス中に符号化アーティファクトとビットレート制御を処理する。
我々は,完全畳み込みネットワークモデルに,ゲート残差ネットワークや奥行き分離可能な畳み込みなど,コンパクトなモデルアーキテクチャを導入することで効率を向上する。
さらに,提案モデルには拡張性のあるアーキテクチャ,クロスモジュール残差学習(CMRL)を備え,幅広いビットレートをカバーする。
そこで我々は,複数のnwc自動エンコーディングモジュールを結合し,nwcモジュールが先行するモジュールが生成した復元損失を復元するために残余符号化を行う残余符号化方式を採用している。
CMRLは、低ビットレートをカバーするためにスケールダウンし、最初のオートエンコーダとして線形予測符号化(LPC)モジュールを使用する。
我々はLPCの量子化をトレーニング可能なモジュールとして再定義し、LPCとその後続のNWCモジュール間のビット割り当てトレードオフを強化する。
他の自己回帰型デコーダベースのニューラルスピーチコーダと比較すると、このデコーダはアーキテクチャがかなり小さい。例えば、0.12億パラメータしかなく、ウェーブネットデコーダより100倍以上小さい。
LPCNetベースの音声コーデックは低ビットレートのネットワーク複雑性を低減するために音声生成モデルを利用しており、我々は高いビットレートまで拡張して透過的な性能を実現することができる。
軽量なニューラル音声符号化モデルは,低ビットレート領域でamr-wbと同等の主観的スコアを達成し,32kbpsで透過的な符号化品質を提供する。
関連論文リスト
- Standard compliant video coding using low complexity, switchable neural wrappers [8.149130379436759]
標準互換性、高性能、低復号化の複雑さを特徴とする新しいフレームワークを提案する。
私たちは、標準的なビデオをラップして、異なる解像度でビデオをエンコードする、共同最適化されたニューラルプリプロセッサとポストプロセッサのセットを使用します。
我々は、異なるアップサンプリング比を処理できる低複雑性のニューラルポストプロセッサアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-07-10T06:36:45Z) - Real-Time Target Sound Extraction [13.526450617545537]
実時間およびストリーミングターゲット音抽出を実現するためのニューラルネットワークモデルを提案する。
本稿では,エンコーダとして拡張因果畳み込みレイヤを積み重ねたエンコーダデコーダアーキテクチャであるWaveformerと,デコーダとしてトランスフォーマデコーダレイヤを提案する。
論文 参考訳(メタデータ) (2022-11-04T03:51:23Z) - Graph Neural Networks for Channel Decoding [71.15576353630667]
低密度パリティチェック(LDPC)やBCH符号など、様々な符号化方式の競合復号性能を示す。
ニューラルネットワーク(NN)は、与えられたグラフ上で一般化されたメッセージパッシングアルゴリズムを学習する。
提案するデコーダを,従来のチャネル復号法および最近のディープラーニングに基づく結果と比較した。
論文 参考訳(メタデータ) (2022-07-29T15:29:18Z) - Cross-Scale Vector Quantization for Scalable Neural Speech Coding [22.65761249591267]
ビットレートスケーラビリティは、リアルタイム通信においてオーディオコーディングに望ましい機能である。
本稿では,クロススケールな拡張型ベクトル量子化スキーム(CSVQ)を提案する。
このように、ビットストリームの一部しか受信していない場合、粗いレベル信号が再構成され、より多くのビットが利用可能になるにつれて、徐々に品質が向上する。
論文 参考訳(メタデータ) (2022-07-07T03:23:25Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T16:50:16Z) - A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。
提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文 参考訳(メタデータ) (2021-08-09T14:03:07Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。