論文の概要: Deep Neural Networks and End-to-End Learning for Audio Compression
- arxiv url: http://arxiv.org/abs/2105.11681v1
- Date: Tue, 25 May 2021 05:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 13:40:53.165038
- Title: Deep Neural Networks and End-to-End Learning for Audio Compression
- Title(参考訳): 音声圧縮のためのディープニューラルネットワークとエンドツーエンド学習
- Authors: Daniela N. Rim, Inseon Jang, Heeyoul Choi
- Abstract要約: 本稿では,変分オートエンコーダ(VAE)のトレーニング戦略において,リカレントニューラルネットワーク(RNN)と潜時空間のバイナリ表現を組み合わせたエンドツーエンドのディープラーニング手法を提案する。
RNNを用いた1つの音声圧縮モデルのエンドツーエンド学習としてはこれが初めてであり、我々のモデルは20.54のSDR(Signal to Distortion Ratio)を達成する。
- 参考スコア(独自算出の注目度): 2.084078990567849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent achievements in end-to-end deep learning have encouraged the
exploration of tasks dealing with highly structured data with unified deep
network models. Having such models for compressing audio signals has been
challenging since it requires discrete representations that are not easy to
train with end-to-end backpropagation. In this paper, we present an end-to-end
deep learning approach that combines recurrent neural networks (RNNs) within
the training strategy of variational autoencoders (VAEs) with a binary
representation of the latent space. We apply a reparametrization trick for the
Bernoulli distribution for the discrete representations, which allows smooth
backpropagation. In addition, our approach allows the separation of the encoder
and decoder, which is necessary for compression tasks. To our best knowledge,
this is the first end-to-end learning for a single audio compression model with
RNNs, and our model achieves a Signal to Distortion Ratio (SDR) of 20.54.
- Abstract(参考訳): エンドツーエンドディープラーニングの最近の成果は、高度に構造化されたデータを統一されたディープネットワークモデルで扱うタスクの探索を奨励している。
音声信号を圧縮するためのそのようなモデルを持つことは、エンドツーエンドのバックプロパゲーションで簡単に訓練できない離散表現を必要とするため、難しい。
本稿では,変分オートエンコーダ(VAE)のトレーニング戦略において,リカレントニューラルネットワーク(RNN)と潜時空間のバイナリ表現を組み合わせたエンドツーエンドのディープラーニング手法を提案する。
離散表現に対するベルヌーイ分布に対する再パラメータ化のトリックを適用し、滑らかなバックプロパゲーションを可能にした。
さらに,圧縮タスクに必要なエンコーダとデコーダの分離も可能とした。
我々の知る限り、これはRNNを用いた1つの音声圧縮モデルのための最初のエンドツーエンド学習であり、我々のモデルは20.54のSignal to Distortion Ratio(SDR)を達成する。
関連論文リスト
- "Lossless" Compression of Deep Neural Networks: A High-dimensional
Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。
提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文 参考訳(メタデータ) (2024-03-01T03:46:28Z) - Dynamic Encoding and Decoding of Information for Split Learning in
Mobile-Edge Computing: Leveraging Information Bottleneck Theory [1.1151919978983582]
Split Learning(スプリットラーニング)は、MLモデルを2つの部分(エンコーダとデコーダ)に分割する、プライバシ保護の分散学習パラダイムである。
モバイルエッジコンピューティングでは、エンコーダがユーザ機器(UE)に、デコーダがエッジネットワークに、分割学習によってネットワーク機能を訓練することができる。
本稿では,送信リソース消費の動的バランスと,共有潜在表現の情報化を両立させるためのフレームワークとトレーニング機構を提案する。
論文 参考訳(メタデータ) (2023-09-06T07:04:37Z) - Progressive Fourier Neural Representation for Sequential Video
Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。
本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。
我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文 参考訳(メタデータ) (2023-06-20T06:02:19Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate
Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。
本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。
我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T15:02:11Z) - Wideband and Entropy-Aware Deep Soft Bit Quantization [1.7259824817932292]
広帯域チャネル間のソフトビット量子化のための新しいディープラーニングソリューションを提案する。
本手法は、損失関数に対する量子化およびエントロピー対応の強化により、エンドツーエンドで訓練される。
提案手法は,従来の最先端手法と比較して,高SNR方式で最大10 %の圧縮ゲインを実現する。
論文 参考訳(メタデータ) (2021-10-18T18:00:05Z) - Self-supervised Neural Networks for Spectral Snapshot Compressive
Imaging [15.616674529295366]
我々は、訓練されていないニューラルネットワークを用いて、スナップショット圧縮画像(SCI)の再構成問題を解決することを検討する。
本稿では,DIP(Deep Image Priors)やディープデコーダ(Deep Decoder)といった未学習のニューラルネットワークにヒントを得て,DIPをプラグアンドプレイシステムに統合して,スペクトルSCI再構成のための自己教師型ネットワークを構築する。
論文 参考訳(メタデータ) (2021-08-28T14:17:38Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Unfolding Neural Networks for Compressive Multichannel Blind
Deconvolution [71.29848468762789]
圧縮性多チャネルブラインドデコンボリューション問題に対する学習構造付き展開型ニューラルネットワークを提案する。
この問題では、各チャネルの測定は共通のソース信号とスパースフィルタの畳み込みとして与えられる。
提案手法は,従来の圧縮型マルチチャネルブラインドデコンボリューション法よりも,スパースフィルタの精度と高速化の点で優れていることを示す。
論文 参考訳(メタデータ) (2020-10-22T02:34:33Z) - Bayesian Sparsification Methods for Deep Complex-valued Networks [18.00411355850543]
Sparse Variational Dropout を複素数値ニューラルネットワークに拡張する。
我々はC値ネットワークの性能圧縮トレードオフを2つのタスクで大規模に数値的に研究する。
我々は、Trabelsiらによる、50-100xで圧縮された複雑な値のネットワークを、小さなパフォーマンスペナルティで、MusicNet上で再現する。
論文 参考訳(メタデータ) (2020-03-25T13:57:16Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。