論文の概要: Neural Spectral Band Generation for Audio Coding
- arxiv url: http://arxiv.org/abs/2506.06732v1
- Date: Sat, 07 Jun 2025 09:35:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.454396
- Title: Neural Spectral Band Generation for Audio Coding
- Title(参考訳): 音声符号化のためのニューラルスペクトルバンド生成
- Authors: Woongjib Choi, Byeong Hyeon Kim, Hyungseob Lim, Inseon Jang, Hong-Goo Kang,
- Abstract要約: 私の研究は、パラメトリックな非ブラインド帯域拡張に対する新しいアプローチを提案する。
従来のスペクトル帯域レプリケーションは、オーディオ帯域拡張に対するよく確立されたパラメトリックアプローチである。
ディープニューラルネットワークに基づく音声帯域拡張手法が提案されている。
- 参考スコア(独自算出の注目度): 14.466825532313795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio bandwidth extension is the task of reconstructing missing high frequency components of bandwidth-limited audio signals, where bandwidth limitation is a common issue for audio signals due to several reasons, including channel capacity and data constraints. While conventional spectral band replication is a well-established parametric approach to audio bandwidth extension, the SBR usually entails coarse feature extraction and reconstruction techniques, which leads to limitations when processing various types of audio signals. In parallel, numerous deep neural network-based audio bandwidth extension methods have been proposed. These DNN-based methods are usually referred to as blind BWE, as these methods do not rely on prior information extracted from original signals, and only utilize given low frequency band signals to estimate missing high frequency components. In order to replace conventional SBR with DNNs, simply adopting existing DNN-based methodologies results in suboptimal performance due to the blindness of these methods. My proposed research suggests a new approach to parametric non-blind bandwidth extension, as DNN-based side information extraction and DNN-based bandwidth extension are performed only at the front and end of the audio coding pipeline.
- Abstract(参考訳): 帯域幅拡張は、帯域幅制限されたオーディオ信号の欠落する高周波成分を再構成する作業であり、帯域幅制限は、チャネル容量やデータ制約などいくつかの理由から、オーディオ信号に共通する問題である。
従来のスペクトル帯域レプリケーションは、オーディオ帯域拡張に対するよく確立されたパラメトリック手法であるが、SBRは通常、粗い特徴抽出と再構成技術を必要とするため、様々な種類の音声信号を処理する際の制限が生じる。
並行して、多くのディープニューラルネットワークに基づくオーディオ帯域拡張手法が提案されている。
これらのDNNベースの手法は通常ブラインドBWEと呼ばれ、これらの手法は元の信号から抽出された事前情報に依存しず、与えられた低周波帯域信号のみを使用して、欠落した高周波成分を推定する。
従来のSBRをDNNに置き換えるために、既存のDNNベースの手法を採用するだけで、これらの手法の盲点により、最適以下の性能が得られる。
提案した研究は、DNNベースのサイド情報抽出とDNNベースの帯域拡張が、オーディオ符号化パイプラインの前後でのみ実行されるように、パラメトリックな非ブラインド帯域拡張に対する新しいアプローチを提案する。
関連論文リスト
- FANeRV: Frequency Separation and Augmentation based Neural Representation for Video [32.35716293561769]
ビデオのための周波数分離と拡張に基づくニューラル表現(FANeRV)を提案する。
FANeRVは離散ウェーブレット変換を用いて入力フレームを高周波数成分と低周波数成分に明示的に分離する。
特別に設計されたゲートネットワークは、これらの周波数成分を効果的に融合して最適な再構成を行う。
論文 参考訳(メタデータ) (2025-04-09T10:19:35Z) - Rethinking Transformer-Based Blind-Spot Network for Self-Supervised Image Denoising [94.09442506816724]
BSN(Blind-spot Network)は、自己教師付き画像復調(SSID)におけるニューラルネットワークアーキテクチャとして広く使われている。
本研究では,Transformer ベースの Blind-Spot Network (TBSN) を構築した。
論文 参考訳(メタデータ) (2024-04-11T15:39:10Z) - Low-power SNN-based audio source localisation using a Hilbert Transform spike encoding scheme [4.49657690895714]
音源の定位は、個々の話者から音声を分離し、ノイズを除去するために、多くの消費者デバイスで使われている。
広帯域オーディオから狭帯域信号成分を得るには、高密度帯域通過フィルタが必要であることが多い。
超低消費電力スパイキングニューラルネットワーク(SNN)の効率的な実装を目的とした任意のマイクロホンアレイ上の音源定位手法を実証する。
提案手法は,従来の非SNN超解像ビームフォーミングに匹敵する,SNN法における最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-02-19T00:21:13Z) - Deep OFDM Channel Estimation: Capturing Frequency Recurrence [10.76835122839777]
OFDMシステムにおける深層学習に基づくチャネル推定手法を提案する。
我々は、単一OFDMスロット内で繰り返しニューラルネットワーク技術を採用し、レイテンシとメモリ制約を克服する。
提案したSisRafNetは、既存のディープラーニングに基づくチャネル推定手法と比較して優れた推定性能を提供する。
論文 参考訳(メタデータ) (2024-01-07T14:13:08Z) - Distributed Deep Joint Source-Channel Coding with Decoder-Only Side
Information [6.411633100057159]
本稿では,受信側のみに相関する側情報が存在する場合,ノイズの多い無線チャネル上での低遅延画像伝送について検討する。
本稿では,デコーダのみの側情報をレシーバ側の複数段階に組み込んだ新しいニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-06T15:17:45Z) - Disentangled Representation Learning for RF Fingerprint Extraction under
Unknown Channel Statistics [77.13542705329328]
本稿では,まず,不整合表現学習(DRL)の枠組みを提案し,入力信号を逆学習によりデバイス関連成分とデバイス関連成分に分解する。
提案フレームワークにおける暗黙的なデータ拡張は、デバイス非関連チャネル統計の過度な適合を避けるために、RFF抽出器に正規化を課す。
実験により、DR-RFFと呼ばれる提案手法は、未知の複雑な伝播環境に対する一般化可能性の観点から従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-04T15:46:48Z) - Deep Learning-Based Synchronization for Uplink NB-IoT [72.86843435313048]
狭帯域モノのインターネット(NB-IoT)における狭帯域物理ランダムアクセスチャネル(NPRACH)のデバイス検出と到着時刻推定のためのニューラルネットワーク(NN)に基づくアルゴリズムを提案する。
導入されたNNアーキテクチャは、残余の畳み込みネットワークと、5Gニューラジオ(5G NR)仕様のプリアンブル構造に関する知識を利用する。
論文 参考訳(メタデータ) (2022-05-22T12:16:43Z) - Two-step Machine Learning Approach for Channel Estimation with Mixed
Resolution RF Chains [19.0581196881206]
機械学習(ML)アルゴリズムを適用し,効率的なアップリンクチャネル推定手法を提案する。
第1ステップでは、条件付き生成逆転ネットワーク(cGAN)は、フル解像度RFチェーンの限られたセットから低解像度RFチェーンアンテナ要素の残りの部分まで、無線チャネルを予測します。
長期長期メモリ(LSTM)ニューラルネットワークは、低分解能RFチェーンアンテナ要素からさらなる位相情報を抽出します。
論文 参考訳(メタデータ) (2021-01-24T12:33:54Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。