論文の概要: NESC: Robust Neural End-2-End Speech Coding with GANs
- arxiv url: http://arxiv.org/abs/2207.03282v1
- Date: Thu, 7 Jul 2022 13:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 14:51:23.499999
- Title: NESC: Robust Neural End-2-End Speech Coding with GANs
- Title(参考訳): NESC: GANを用いたロバスト・ニューラルエンド-2-エンド音声符号化
- Authors: Nicola Pia and Kishan Gupta and Srikanth Korse and Markus Multrus and
Guillaume Fuchs
- Abstract要約: 3kbpsで高品質な広帯域音声符号化を実現するために、堅牢でスケーラブルなエンドツーエンドのニューラル音声構成を提案する。
清潔で騒々しい音声に対する主観的聴力試験の結果,NESCは特に目に見えない条件や信号の摂動に対して頑健であることがわかった。
- 参考スコア(独自算出の注目度): 8.9946669111492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks have proven to be a formidable tool to tackle the problem of
speech coding at very low bit rates. However, the design of a neural coder that
can be operated robustly under real-world conditions remains a major challenge.
Therefore, we present Neural End-2-End Speech Codec (NESC) a robust, scalable
end-to-end neural speech codec for high-quality wideband speech coding at 3
kbps. The encoder uses a new architecture configuration, which relies on our
proposed Dual-PathConvRNN (DPCRNN) layer, while the decoder architecture is
based on our previous work Streamwise-StyleMelGAN. Our subjective listening
tests on clean and noisy speech show that NESC is particularly robust to unseen
conditions and signal perturbations.
- Abstract(参考訳): ニューラルネットワークは、非常に低いビットレートで音声符号化の問題に取り組むための強力なツールであることが証明されている。
しかし、現実世界の条件下でロバストに操作できるニューラルコーダの設計は依然として大きな課題である。
そこで我々は,3kbpsの高品位広帯域音声符号化のための,堅牢でスケーラブルなエンドツーエンドニューラル音声コーデックであるNeural End-2-End Speech Codec(NESC)を提案する。
エンコーダは、提案したDual-PathConvRNN(DPCRNN)層に依存する新しいアーキテクチャ構成を使用し、デコーダアーキテクチャは、これまでのStreamwise-StyleMelGANに基づいています。
清潔で騒々しい音声に対する主観的聴力試験の結果,NESCは特に目に見えない条件や信号の摂動に対して頑健であることがわかった。
関連論文リスト
- Optimizing Serially Concatenated Neural Codes with Classical Decoders [8.692972779213932]
従来の復号アルゴリズムが非自明な実数値ニューラルコードに適用されていることを示す。
BCJRアルゴリズムは完全に微分可能であるので、エンドツーエンドでニューラルエンコーダのトレーニングや微調整が可能である。
論文 参考訳(メタデータ) (2022-12-20T15:40:08Z) - Graph Neural Networks for Channel Decoding [71.15576353630667]
低密度パリティチェック(LDPC)やBCH符号など、様々な符号化方式の競合復号性能を示す。
ニューラルネットワーク(NN)は、与えられたグラフ上で一般化されたメッセージパッシングアルゴリズムを学習する。
提案するデコーダを,従来のチャネル復号法および最近のディープラーニングに基づく結果と比較した。
論文 参考訳(メタデータ) (2022-07-29T15:29:18Z) - Neural Decoding with Optimization of Node Activations [23.22461721824713]
誤り訂正符号に対するニューラルデコーダを用いた極大復号化の問題点を考察する。
ニューラルデコーダは、ノードのアクティベーションに関する2つの新しい損失項で改善できることが示されている。
論文 参考訳(メタデータ) (2022-06-01T22:38:32Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Doubly Residual Neural Decoder: Towards Low-Complexity High-Performance
Channel Decoding [19.48350605321212]
ディープニューラルネットワークは、デコード性能を改善するためにチャネル符号化に成功している。
二重残留ニューラルネットワーク(DRN)デコーダを提案する。
DRNは、複雑さを低く保ちながら、大幅なデコードパフォーマンスの改善を可能にする。
論文 参考訳(メタデータ) (2021-02-08T01:48:16Z) - Decoding 5G-NR Communications via Deep Learning [6.09170287691728]
本稿では,Deep Neural Network(DNN)と共同で自動符号化ニューラルネットワーク(ANN)を用いて,デマッピングとデコードのための自動符号化ディープニューラルネットワーク(ADNN)を構築することを提案する。
その結果、特定のBERターゲットに対して、AWGN(Additive White Gaussian Noise)チャネルにおいて、SNR(Signal to Noise Ratio)の$3$dBが要求されることが明らかになった。
論文 参考訳(メタデータ) (2020-07-15T12:00:20Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。