論文の概要: HARP-Net: Hyper-Autoencoded Reconstruction Propagation\\for Scalable
Neural Audio Coding
- arxiv url: http://arxiv.org/abs/2107.10843v1
- Date: Thu, 22 Jul 2021 17:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 16:00:05.362270
- Title: HARP-Net: Hyper-Autoencoded Reconstruction Propagation\\for Scalable
Neural Audio Coding
- Title(参考訳): HARP-Net: Hyper-Autoencoded Reconstruction Propagation\\for Scalable Neural Audio Coding
- Authors: Darius Petermann, Seungkwon Beack, Minje Kim
- Abstract要約: オートエンコーダベースのデコーダは、そのボトルネック層活性化をビットストリングに変換するために量子化を使用する。
この問題を回避するために、対応するエンコーダ・デコーダ層間のスキップ接続を追加する。
提案するハイパー・オートエンコーダ・アーキテクチャは,通常のオートエンコーダ・ベースラインに比べて音質の向上を実証的に検証する。
- 参考スコア(独自算出の注目度): 25.51661602383911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An autoencoder-based codec employs quantization to turn its bottleneck layer
activation into bitstrings, a process that hinders information flow between the
encoder and decoder parts. To circumvent this issue, we employ additional skip
connections between the corresponding pair of encoder-decoder layers. The
assumption is that, in a mirrored autoencoder topology, a decoder layer
reconstructs the intermediate feature representation of its corresponding
encoder layer. Hence, any additional information directly propagated from the
corresponding encoder layer helps the reconstruction. We implement this kind of
skip connections in the form of additional autoencoders, each of which is a
small codec that compresses the massive data transfer between the paired
encoder-decoder layers. We empirically verify that the proposed
hyper-autoencoded architecture improves perceptual audio quality compared to an
ordinary autoencoder baseline.
- Abstract(参考訳): オートエンコーダベースのコーデックは、そのボトルネック層の活性化をビットストリングに変換するために量子化を利用する。
この問題を回避するために、対応するエンコーダ・デコーダ層間のスキップ接続を追加する。
ミラー化された自己エンコーダトポロジーでは、デコーダ層はその対応するエンコーダ層の中間特徴表現を再構成する。
これにより、対応するエンコーダ層から直接伝播する付加情報が復元に役立つ。
我々はこのようなスキップ接続を追加のオートエンコーダで実装し、それぞれがペアのエンコーダ-デコーダ層間の大量のデータ転送を圧縮する小さなコーデックである。
提案するハイパーオートコーディングアーキテクチャは,通常のオートエンコーダベースラインに比べて知覚音質の向上を実証的に検証する。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - More complex encoder is not all you need [0.882348769487259]
我々は,強力なデコーダを構築するために,新しいサブピクセル・コンボリューションを組み込んだneU-Net(複雑なエンコーダではないU-Net)を導入する。
我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。
論文 参考訳(メタデータ) (2023-09-20T08:34:38Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Rethinking Skip Connections in Encoder-decoder Networks for Monocular
Depth Estimation [4.364863910305258]
単眼深度推定のためのフルスキップ接続ネットワーク(FSCN)を提案する。
さらに、スキップ接続内の機能をより緊密に融合するために、適応連結モジュール(ACM)を提案する。
論文 参考訳(メタデータ) (2022-08-29T09:20:53Z) - SoftPool++: An Encoder-Decoder Network for Point Cloud Completion [93.54286830844134]
本稿では,ポイントクラウド完了作業のための新しい畳み込み演算子を提案する。
提案した演算子は、最大プールやボキセル化操作を一切必要としない。
提案手法は,低解像度・高解像度の形状仕上げにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T15:31:36Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - Cascade Decoders-Based Autoencoders for Image Reconstruction [2.924868086534434]
本稿では,カスケードデコーダを用いたオートエンコーダの画像再構成を目的とする。
提案したシリアルデコーダベースのオートエンコーダは、マルチレベルデコーダのアーキテクチャと関連する最適化アルゴリズムを含む。
提案するオートエンコーダは,画像再構成の性能において,従来のオートエンコーダよりも優れていた。
論文 参考訳(メタデータ) (2021-06-29T23:40:54Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - Balancing Cost and Benefit with Tied-Multi Transformers [24.70761584719857]
シーケンス・ツー・シーケンス・モデリングでは、N層エンコーダの最後の層の出力をM層デコーダに供給し、最後のデコーダ層の出力を用いて損失を算出する。
提案手法はNxM損失からなる単一損失を計算し,各損失をNエンコーダ層に接続されたMデコーダ層の出力から算出する。
このようなモデルは、エンコーダ層とデコーダ層の数が異なるNxMモデルを仮定し、エンコーダ層とデコーダ層の最大数より少ないデコードに使用できる。
論文 参考訳(メタデータ) (2020-02-20T08:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。