論文の概要: Neural Spectral Band Generation for Audio Coding
- arxiv url: http://arxiv.org/abs/2506.06732v2
- Date: Mon, 28 Jul 2025 04:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.661866
- Title: Neural Spectral Band Generation for Audio Coding
- Title(参考訳): 音声符号化のためのニューラルスペクトルバンド生成
- Authors: Woongjib Choi, Byeong Hyeon Kim, Hyungseob Lim, Inseon Jang, Hong-Goo Kang,
- Abstract要約: 本稿では、高周波帯域を符号化するためのディープニューラルネットワーク(DNN)に基づく生成手法を提案する。
提案手法は,サイド情報の少ないHE-AAC-v1よりも知覚品質が高いことを示す。
- 参考スコア(独自算出の注目度): 14.466825532313795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spectral band replication (SBR) enables bit-efficient coding by generating high-frequency bands from the low-frequency ones. However, it only utilizes coarse spectral features upon a subband-wise signal replication, limiting adaptability to diverse acoustic signals. In this paper, we explore the efficacy of a deep neural network (DNN)-based generative approach for coding the high-frequency bands, which we call neural spectral band generation (n-SBG). Specifically, we propose a DNN-based encoder-decoder structure to extract and quantize the side information related to the high-frequency components and generate the components given both the side information and the decoded core-band signals. The whole coding pipeline is optimized with generative adversarial criteria to enable the generation of perceptually plausible sound. From experiments using AAC as the core codec, we show that the proposed method achieves a better perceptual quality than HE-AAC-v1 with much less side information.
- Abstract(参考訳): スペクトルバンドレプリケーション(SBR)は、低周波帯域から高周波帯域を生成することにより、ビット効率の符号化を可能にする。
しかし、サブバンドワイド信号複製の粗いスペクトル特性しか利用せず、様々な音響信号への適応性を制限している。
本稿では,ニューラルスペクトルバンド生成(n-SBG)と呼ばれる高周波帯域を符号化するディープニューラルネットワーク(DNN)を用いた生成手法の有効性について検討する。
具体的には、DNNベースのエンコーダデコーダ構造を用いて、高周波成分に関連するサイド情報を抽出・定量化し、サイド情報とデコードコアバンド信号の両方を出力するコンポーネントを生成する。
符号化パイプライン全体は、知覚的可聴音の発生を可能にするために、生成的対向基準で最適化される。
コアコーデックとしてAACを用いた実験から,提案手法は側情報が少ないHE-AAC-v1よりも知覚品質が高いことを示した。
関連論文リスト
- FANeRV: Frequency Separation and Augmentation based Neural Representation for Video [32.35716293561769]
ビデオのための周波数分離と拡張に基づくニューラル表現(FANeRV)を提案する。
FANeRVは離散ウェーブレット変換を用いて入力フレームを高周波数成分と低周波数成分に明示的に分離する。
特別に設計されたゲートネットワークは、これらの周波数成分を効果的に融合して最適な再構成を行う。
論文 参考訳(メタデータ) (2025-04-09T10:19:35Z) - Rethinking Transformer-Based Blind-Spot Network for Self-Supervised Image Denoising [94.09442506816724]
BSN(Blind-spot Network)は、自己教師付き画像復調(SSID)におけるニューラルネットワークアーキテクチャとして広く使われている。
本研究では,Transformer ベースの Blind-Spot Network (TBSN) を構築した。
論文 参考訳(メタデータ) (2024-04-11T15:39:10Z) - Low-power SNN-based audio source localisation using a Hilbert Transform spike encoding scheme [4.49657690895714]
音源の定位は、個々の話者から音声を分離し、ノイズを除去するために、多くの消費者デバイスで使われている。
広帯域オーディオから狭帯域信号成分を得るには、高密度帯域通過フィルタが必要であることが多い。
超低消費電力スパイキングニューラルネットワーク(SNN)の効率的な実装を目的とした任意のマイクロホンアレイ上の音源定位手法を実証する。
提案手法は,従来の非SNN超解像ビームフォーミングに匹敵する,SNN法における最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-02-19T00:21:13Z) - Deep OFDM Channel Estimation: Capturing Frequency Recurrence [10.76835122839777]
OFDMシステムにおける深層学習に基づくチャネル推定手法を提案する。
我々は、単一OFDMスロット内で繰り返しニューラルネットワーク技術を採用し、レイテンシとメモリ制約を克服する。
提案したSisRafNetは、既存のディープラーニングに基づくチャネル推定手法と比較して優れた推定性能を提供する。
論文 参考訳(メタデータ) (2024-01-07T14:13:08Z) - Distributed Deep Joint Source-Channel Coding with Decoder-Only Side
Information [6.411633100057159]
本稿では,受信側のみに相関する側情報が存在する場合,ノイズの多い無線チャネル上での低遅延画像伝送について検討する。
本稿では,デコーダのみの側情報をレシーバ側の複数段階に組み込んだ新しいニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-06T15:17:45Z) - Disentangled Representation Learning for RF Fingerprint Extraction under
Unknown Channel Statistics [77.13542705329328]
本稿では,まず,不整合表現学習(DRL)の枠組みを提案し,入力信号を逆学習によりデバイス関連成分とデバイス関連成分に分解する。
提案フレームワークにおける暗黙的なデータ拡張は、デバイス非関連チャネル統計の過度な適合を避けるために、RFF抽出器に正規化を課す。
実験により、DR-RFFと呼ばれる提案手法は、未知の複雑な伝播環境に対する一般化可能性の観点から従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-04T15:46:48Z) - Deep Learning-Based Synchronization for Uplink NB-IoT [72.86843435313048]
狭帯域モノのインターネット(NB-IoT)における狭帯域物理ランダムアクセスチャネル(NPRACH)のデバイス検出と到着時刻推定のためのニューラルネットワーク(NN)に基づくアルゴリズムを提案する。
導入されたNNアーキテクチャは、残余の畳み込みネットワークと、5Gニューラジオ(5G NR)仕様のプリアンブル構造に関する知識を利用する。
論文 参考訳(メタデータ) (2022-05-22T12:16:43Z) - Two-step Machine Learning Approach for Channel Estimation with Mixed
Resolution RF Chains [19.0581196881206]
機械学習(ML)アルゴリズムを適用し,効率的なアップリンクチャネル推定手法を提案する。
第1ステップでは、条件付き生成逆転ネットワーク(cGAN)は、フル解像度RFチェーンの限られたセットから低解像度RFチェーンアンテナ要素の残りの部分まで、無線チャネルを予測します。
長期長期メモリ(LSTM)ニューラルネットワークは、低分解能RFチェーンアンテナ要素からさらなる位相情報を抽出します。
論文 参考訳(メタデータ) (2021-01-24T12:33:54Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。