Fugu-MT 論文翻訳(概要): Deep Neural Networks and End-to-End Learning for Audio Compression

論文の概要: Deep Neural Networks and End-to-End Learning for Audio Compression

arxiv url: http://arxiv.org/abs/2105.11681v1
Date: Tue, 25 May 2021 05:36:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-26 13:40:53.165038
Title: Deep Neural Networks and End-to-End Learning for Audio Compression
Title（参考訳）: 音声圧縮のためのディープニューラルネットワークとエンドツーエンド学習
Authors: Daniela N. Rim, Inseon Jang, Heeyoul Choi
Abstract要約: 本稿では,変分オートエンコーダ(VAE)のトレーニング戦略において,リカレントニューラルネットワーク(RNN)と潜時空間のバイナリ表現を組み合わせたエンドツーエンドのディープラーニング手法を提案する。 RNNを用いた1つの音声圧縮モデルのエンドツーエンド学習としてはこれが初めてであり、我々のモデルは20.54のSDR(Signal to Distortion Ratio)を達成する。
参考スコア（独自算出の注目度）: 2.084078990567849
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent achievements in end-to-end deep learning have encouraged the exploration of tasks dealing with highly structured data with unified deep network models. Having such models for compressing audio signals has been challenging since it requires discrete representations that are not easy to train with end-to-end backpropagation. In this paper, we present an end-to-end deep learning approach that combines recurrent neural networks (RNNs) within the training strategy of variational autoencoders (VAEs) with a binary representation of the latent space. We apply a reparametrization trick for the Bernoulli distribution for the discrete representations, which allows smooth backpropagation. In addition, our approach allows the separation of the encoder and decoder, which is necessary for compression tasks. To our best knowledge, this is the first end-to-end learning for a single audio compression model with RNNs, and our model achieves a Signal to Distortion Ratio (SDR) of 20.54.
Abstract（参考訳）: エンドツーエンドディープラーニングの最近の成果は、高度に構造化されたデータを統一されたディープネットワークモデルで扱うタスクの探索を奨励している。音声信号を圧縮するためのそのようなモデルを持つことは、エンドツーエンドのバックプロパゲーションで簡単に訓練できない離散表現を必要とするため、難しい。本稿では,変分オートエンコーダ(VAE)のトレーニング戦略において,リカレントニューラルネットワーク(RNN)と潜時空間のバイナリ表現を組み合わせたエンドツーエンドのディープラーニング手法を提案する。離散表現に対するベルヌーイ分布に対する再パラメータ化のトリックを適用し、滑らかなバックプロパゲーションを可能にした。さらに,圧縮タスクに必要なエンコーダとデコーダの分離も可能とした。我々の知る限り、これはRNNを用いた1つの音声圧縮モデルのための最初のエンドツーエンド学習であり、我々のモデルは20.54のSignal to Distortion Ratio(SDR)を達成する。

関連論文リスト

Tuning the Frequencies: Robust Training for Sinusoidal Neural Networks [1.5124439914522694]
正弦波ネットワークの容量特性を説明する理論的枠組みを導入する。入力周波数の整数結合として表される多数の新しい周波数を,その層組成によってどのように生成するかを示す。提案手法はTUNERと呼ばれ, 正弦波INRトレーニングの安定性と収束性を大幅に改善し, より詳細な再建を行った。
論文参考訳（メタデータ） (2024-07-30T18:24:46Z)
"Lossless" Compression of Deep Neural Networks: A High-dimensional Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文参考訳（メタデータ） (2024-03-01T03:46:28Z)
Dynamic Encoding and Decoding of Information for Split Learning in Mobile-Edge Computing: Leveraging Information Bottleneck Theory [1.1151919978983582]
Split Learning(スプリットラーニング)は、MLモデルを2つの部分(エンコーダとデコーダ)に分割する、プライバシ保護の分散学習パラダイムである。モバイルエッジコンピューティングでは、エンコーダがユーザ機器(UE)に、デコーダがエッジネットワークに、分割学習によってネットワーク機能を訓練することができる。本稿では,送信リソース消費の動的バランスと,共有潜在表現の情報化を両立させるためのフレームワークとトレーニング機構を提案する。
論文参考訳（メタデータ） (2023-09-06T07:04:37Z)
Progressive Fourier Neural Representation for Sequential Video Compilation [75.43041679717376]
連続学習によって動機づけられたこの研究は、シーケンシャルエンコーディングセッションを通じて、複数の複雑なビデオデータに対して、ニューラル暗黙表現を蓄積し、転送する方法を研究する。本稿では,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という,FFNR(Progressive Fourier Neural Representation)という手法を提案する。我々は,UVG8/17とDAVIS50のビデオシーケンスベンチマークでPFNR法を検証し,強力な連続学習ベースラインよりも優れた性能向上を実現した。
論文参考訳（メタデータ） (2023-06-20T06:02:19Z)
High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文参考訳（メタデータ） (2022-10-24T17:52:02Z)
A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文参考訳（メタデータ） (2022-08-24T15:02:11Z)
Wideband and Entropy-Aware Deep Soft Bit Quantization [1.7259824817932292]
広帯域チャネル間のソフトビット量子化のための新しいディープラーニングソリューションを提案する。本手法は、損失関数に対する量子化およびエントロピー対応の強化により、エンドツーエンドで訓練される。提案手法は,従来の最先端手法と比較して,高SNR方式で最大10 %の圧縮ゲインを実現する。
論文参考訳（メタデータ） (2021-10-18T18:00:05Z)
Self-supervised Neural Networks for Spectral Snapshot Compressive Imaging [15.616674529295366]
我々は、訓練されていないニューラルネットワークを用いて、スナップショット圧縮画像(SCI)の再構成問題を解決することを検討する。本稿では,DIP(Deep Image Priors)やディープデコーダ(Deep Decoder)といった未学習のニューラルネットワークにヒントを得て,DIPをプラグアンドプレイシステムに統合して,スペクトルSCI再構成のための自己教師型ネットワークを構築する。
論文参考訳（メタデータ） (2021-08-28T14:17:38Z)
Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-02T07:50:50Z)
Unfolding Neural Networks for Compressive Multichannel Blind Deconvolution [71.29848468762789]
圧縮性多チャネルブラインドデコンボリューション問題に対する学習構造付き展開型ニューラルネットワークを提案する。この問題では、各チャネルの測定は共通のソース信号とスパースフィルタの畳み込みとして与えられる。提案手法は,従来の圧縮型マルチチャネルブラインドデコンボリューション法よりも,スパースフィルタの精度と高速化の点で優れていることを示す。
論文参考訳（メタデータ） (2020-10-22T02:34:33Z)
Bayesian Sparsification Methods for Deep Complex-valued Networks [18.00411355850543]
Sparse Variational Dropout を複素数値ニューラルネットワークに拡張する。我々はC値ネットワークの性能圧縮トレードオフを2つのタスクで大規模に数値的に研究する。我々は、Trabelsiらによる、50-100xで圧縮された複雑な値のネットワークを、小さなパフォーマンスペナルティで、MusicNet上で再現する。
論文参考訳（メタデータ） (2020-03-25T13:57:16Z)
Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できるこのモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文参考訳（メタデータ） (2020-03-13T13:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。