論文の概要: Neural Spectral Band Generation for Audio Coding
- arxiv url: http://arxiv.org/abs/2506.06732v1
- Date: Sat, 07 Jun 2025 09:35:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.454396
- Title: Neural Spectral Band Generation for Audio Coding
- Title(参考訳): 音声符号化のためのニューラルスペクトルバンド生成
- Authors: Woongjib Choi, Byeong Hyeon Kim, Hyungseob Lim, Inseon Jang, Hong-Goo Kang,
- Abstract要約: 私の研究は、パラメトリックな非ブラインド帯域拡張に対する新しいアプローチを提案する。
従来のスペクトル帯域レプリケーションは、オーディオ帯域拡張に対するよく確立されたパラメトリックアプローチである。
ディープニューラルネットワークに基づく音声帯域拡張手法が提案されている。
- 参考スコア(独自算出の注目度): 14.466825532313795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio bandwidth extension is the task of reconstructing missing high frequency components of bandwidth-limited audio signals, where bandwidth limitation is a common issue for audio signals due to several reasons, including channel capacity and data constraints. While conventional spectral band replication is a well-established parametric approach to audio bandwidth extension, the SBR usually entails coarse feature extraction and reconstruction techniques, which leads to limitations when processing various types of audio signals. In parallel, numerous deep neural network-based audio bandwidth extension methods have been proposed. These DNN-based methods are usually referred to as blind BWE, as these methods do not rely on prior information extracted from original signals, and only utilize given low frequency band signals to estimate missing high frequency components. In order to replace conventional SBR with DNNs, simply adopting existing DNN-based methodologies results in suboptimal performance due to the blindness of these methods. My proposed research suggests a new approach to parametric non-blind bandwidth extension, as DNN-based side information extraction and DNN-based bandwidth extension are performed only at the front and end of the audio coding pipeline.
- Abstract(参考訳): 帯域幅拡張は、帯域幅制限されたオーディオ信号の欠落する高周波成分を再構成する作業であり、帯域幅制限は、チャネル容量やデータ制約などいくつかの理由から、オーディオ信号に共通する問題である。
従来のスペクトル帯域レプリケーションは、オーディオ帯域拡張に対するよく確立されたパラメトリック手法であるが、SBRは通常、粗い特徴抽出と再構成技術を必要とするため、様々な種類の音声信号を処理する際の制限が生じる。
並行して、多くのディープニューラルネットワークに基づくオーディオ帯域拡張手法が提案されている。
これらのDNNベースの手法は通常ブラインドBWEと呼ばれ、これらの手法は元の信号から抽出された事前情報に依存しず、与えられた低周波帯域信号のみを使用して、欠落した高周波成分を推定する。
従来のSBRをDNNに置き換えるために、既存のDNNベースの手法を採用するだけで、これらの手法の盲点により、最適以下の性能が得られる。
提案した研究は、DNNベースのサイド情報抽出とDNNベースの帯域拡張が、オーディオ符号化パイプラインの前後でのみ実行されるように、パラメトリックな非ブラインド帯域拡張に対する新しいアプローチを提案する。
関連論文リスト
- FANeRV: Frequency Separation and Augmentation based Neural Representation for Video [32.35716293561769]
ビデオのための周波数分離と拡張に基づくニューラル表現(FANeRV)を提案する。
FANeRVは離散ウェーブレット変換を用いて入力フレームを高周波数成分と低周波数成分に明示的に分離する。
特別に設計されたゲートネットワークは、これらの周波数成分を効果的に融合して最適な再構成を行う。
論文 参考訳(メタデータ) (2025-04-09T10:19:35Z) - Unsupervised CP-UNet Framework for Denoising DAS Data with Decay Noise [13.466125373185399]
分散音響センサ(DAS)技術は光ファイバーケーブルを利用して音響信号を検出する。
DASは、ジオフォンよりも低い信号対雑音比(S/N)を示す。
これにより、S/Nの低減は、反転と解釈を含むデータ解析に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-19T03:09:49Z) - VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders [14.222389985736422]
VNetは、全帯域スペクトル情報を組み込んだGANベースのニューラルボコーダネットワークである。
VNetモデルは高忠実度音声を生成することができることを示す。
論文 参考訳(メタデータ) (2024-08-13T14:00:02Z) - Tuning the Frequencies: Robust Training for Sinusoidal Neural Networks [1.5124439914522694]
正弦波ネットワークの容量特性を説明する理論的枠組みを導入する。
入力周波数の整数結合として表される多数の新しい周波数を,その層組成によってどのように生成するかを示す。
提案手法はTUNERと呼ばれ, 正弦波INRトレーニングの安定性と収束性を大幅に改善し, より詳細な再建を行った。
論文 参考訳(メタデータ) (2024-07-30T18:24:46Z) - Rethinking Transformer-Based Blind-Spot Network for Self-Supervised Image Denoising [94.09442506816724]
BSN(Blind-spot Network)は、自己教師付き画像復調(SSID)におけるニューラルネットワークアーキテクチャとして広く使われている。
本研究では,Transformer ベースの Blind-Spot Network (TBSN) を構築した。
論文 参考訳(メタデータ) (2024-04-11T15:39:10Z) - Low-power SNN-based audio source localisation using a Hilbert Transform spike encoding scheme [4.49657690895714]
音源の定位は、個々の話者から音声を分離し、ノイズを除去するために、多くの消費者デバイスで使われている。
広帯域オーディオから狭帯域信号成分を得るには、高密度帯域通過フィルタが必要であることが多い。
超低消費電力スパイキングニューラルネットワーク(SNN)の効率的な実装を目的とした任意のマイクロホンアレイ上の音源定位手法を実証する。
提案手法は,従来の非SNN超解像ビームフォーミングに匹敵する,SNN法における最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-02-19T00:21:13Z) - Deep OFDM Channel Estimation: Capturing Frequency Recurrence [10.76835122839777]
OFDMシステムにおける深層学習に基づくチャネル推定手法を提案する。
我々は、単一OFDMスロット内で繰り返しニューラルネットワーク技術を採用し、レイテンシとメモリ制約を克服する。
提案したSisRafNetは、既存のディープラーニングに基づくチャネル推定手法と比較して優れた推定性能を提供する。
論文 参考訳(メタデータ) (2024-01-07T14:13:08Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - Distributed Deep Joint Source-Channel Coding with Decoder-Only Side
Information [6.411633100057159]
本稿では,受信側のみに相関する側情報が存在する場合,ノイズの多い無線チャネル上での低遅延画像伝送について検討する。
本稿では,デコーダのみの側情報をレシーバ側の複数段階に組み込んだ新しいニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-06T15:17:45Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - Disentangled Representation Learning for RF Fingerprint Extraction under
Unknown Channel Statistics [77.13542705329328]
本稿では,まず,不整合表現学習(DRL)の枠組みを提案し,入力信号を逆学習によりデバイス関連成分とデバイス関連成分に分解する。
提案フレームワークにおける暗黙的なデータ拡張は、デバイス非関連チャネル統計の過度な適合を避けるために、RFF抽出器に正規化を課す。
実験により、DR-RFFと呼ばれる提案手法は、未知の複雑な伝播環境に対する一般化可能性の観点から従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-04T15:46:48Z) - Deep Learning-Based Synchronization for Uplink NB-IoT [72.86843435313048]
狭帯域モノのインターネット(NB-IoT)における狭帯域物理ランダムアクセスチャネル(NPRACH)のデバイス検出と到着時刻推定のためのニューラルネットワーク(NN)に基づくアルゴリズムを提案する。
導入されたNNアーキテクチャは、残余の畳み込みネットワークと、5Gニューラジオ(5G NR)仕様のプリアンブル構造に関する知識を利用する。
論文 参考訳(メタデータ) (2022-05-22T12:16:43Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Parallel frequency function-deep neural network for efficient complex
broadband signal approximation [1.536989504296526]
ニューラルネットワークは本質的に、特徴フィッティングのためのネットワーク重みを調整することで、高次元の複雑なマッピングモデルである。
ネットワークトレーニングにおけるスペクトルバイアスは、ブロードバンド信号に高周波成分を適合させるには耐え難い訓練エポックをもたらす。
並列周波数関数ディープニューラルネットワーク(PFF-DNN)を提案する。
論文 参考訳(メタデータ) (2021-06-19T01:39:13Z) - Two-step Machine Learning Approach for Channel Estimation with Mixed
Resolution RF Chains [19.0581196881206]
機械学習(ML)アルゴリズムを適用し,効率的なアップリンクチャネル推定手法を提案する。
第1ステップでは、条件付き生成逆転ネットワーク(cGAN)は、フル解像度RFチェーンの限られたセットから低解像度RFチェーンアンテナ要素の残りの部分まで、無線チャネルを予測します。
長期長期メモリ(LSTM)ニューラルネットワークは、低分解能RFチェーンアンテナ要素からさらなる位相情報を抽出します。
論文 参考訳(メタデータ) (2021-01-24T12:33:54Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。