論文の概要: Psychoacoustic Calibration of Loss Functions for Efficient End-to-End
Neural Audio Coding
- arxiv url: http://arxiv.org/abs/2101.00054v1
- Date: Thu, 31 Dec 2020 19:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 16:54:49.356927
- Title: Psychoacoustic Calibration of Loss Functions for Efficient End-to-End
Neural Audio Coding
- Title(参考訳): 効率的なエンドツーエンドニューラルオーディオ符号化のための損失関数の心理音響校正
- Authors: Kai Zhen, Mi Suk Lee, Jongmo Sung, Seungkwon Beack, Minje Kim
- Abstract要約: ニューラルオーディオ符号化システムの損失関数を再定義するための心理音響校正方式を提案する。
提案手法では、わずか0.9万パラメータの軽量ニューラルネットワークが、商用mpeg-1オーディオ層iiiに匹敵するほぼ透過的なオーディオ符号化を112kbpsで実行する。
- 参考スコア(独自算出の注目度): 30.307627653506756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional audio coding technologies commonly leverage human perception of
sound, or psychoacoustics, to reduce the bitrate while preserving the
perceptual quality of the decoded audio signals. For neural audio codecs,
however, the objective nature of the loss function usually leads to suboptimal
sound quality as well as high run-time complexity due to the large model size.
In this work, we present a psychoacoustic calibration scheme to re-define the
loss functions of neural audio coding systems so that it can decode signals
more perceptually similar to the reference, yet with a much lower model
complexity. The proposed loss function incorporates the global masking
threshold, allowing the reconstruction error that corresponds to inaudible
artifacts. Experimental results show that the proposed model outperforms the
baseline neural codec twice as large and consuming 23.4% more bits per second.
With the proposed method, a lightweight neural codec, with only 0.9 million
parameters, performs near-transparent audio coding comparable with the
commercial MPEG-1 Audio Layer III codec at 112 kbps.
- Abstract(参考訳): 従来の音声符号化技術では、人間の音の知覚を利用して、復号された音声信号の知覚品質を保ちながら、ビットレートを減少させる。
しかし、ニューラルオーディオコーデックの場合、損失関数の客観的性質は、通常、大きめのモデルサイズのために、最適音質と高い実行時間複雑さをもたらす。
本研究では,ニューラルオーディオ符号化システムの損失関数を再定義し,参照とより知覚的に類似した信号の復号化を実現するための心理音響キャリブレーション手法を提案する。
提案した損失関数にはグローバルマスキングしきい値が組み込まれており、難解なアーティファクトに対応する再構成誤差が可能である。
実験結果は,提案モデルがベースラインのニューラルコーデックを2倍に上回り,毎秒23.4%のビットを消費することを示した。
提案手法では、わずか0.9万パラメータの軽量ニューラルネットワークコーデックが、商用mpeg-1オーディオレイヤiiiコーデックに匹敵するほぼ透明なオーディオ符号化を112kbpsで実行する。
関連論文リスト
- Learning Source Disentanglement in Neural Audio Codec [20.335701584949526]
我々は、音源符号化と音源分離を組み合わせた新しいアプローチである、ソース分散ニューラルオーディオコーデック(SD-Codec)を紹介する。
SD-Codecは、音声の合成と分離を共同で学習することで、異なるドメインからの音声信号を異なるコードブック(離散表現の集合)に明示的に割り当てる。
実験結果から,SD-Codecは競合的再合成品質を維持するだけでなく,分離結果に支えられ,潜伏空間における異なるソースの絡み合いが成功したことが示唆された。
論文 参考訳(メタデータ) (2024-09-17T14:21:02Z) - A Cryogenic Memristive Neural Decoder for Fault-tolerant Quantum Error Correction [0.0]
インメモリ・クロスバー(IMC)アーキテクチャに基づくニューラルデコーダの設計と解析を行う。
ハードウェアを意識したリトレーニング手法を開発し、フィデリティ損失を軽減する。
この研究は、フォールトトレラントQECの統合のためのスケーラブルで高速で低消費電力のMCCハードウェアへの経路を提供する。
論文 参考訳(メタデータ) (2023-07-18T17:46:33Z) - The END: An Equivariant Neural Decoder for Quantum Error Correction [73.4384623973809]
データ効率のよいニューラルデコーダを導入し、この問題の対称性を活用する。
本稿では,従来のニューラルデコーダに比べて精度の高い新しい同変アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-14T19:46:39Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Improved decoding of circuit noise and fragile boundaries of tailored
surface codes [61.411482146110984]
高速かつ高精度なデコーダを導入し、幅広い種類の量子誤り訂正符号で使用することができる。
我々のデコーダは、信仰マッチングと信念フィンドと呼ばれ、すべてのノイズ情報を活用し、QECの高精度なデモを解き放つ。
このデコーダは, 標準の正方形曲面符号に対して, 整形曲面符号において, より高いしきい値と低い量子ビットオーバーヘッドをもたらすことがわかった。
論文 参考訳(メタデータ) (2022-03-09T18:48:54Z) - SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。
SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。
エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文 参考訳(メタデータ) (2021-07-07T15:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。