論文の概要: Neural Spectral Band Generation for Audio Coding
- arxiv url: http://arxiv.org/abs/2506.06732v2
- Date: Mon, 28 Jul 2025 04:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.661866
- Title: Neural Spectral Band Generation for Audio Coding
- Title(参考訳): 音声符号化のためのニューラルスペクトルバンド生成
- Authors: Woongjib Choi, Byeong Hyeon Kim, Hyungseob Lim, Inseon Jang, Hong-Goo Kang,
- Abstract要約: 本稿では、高周波帯域を符号化するためのディープニューラルネットワーク(DNN)に基づく生成手法を提案する。
提案手法は,サイド情報の少ないHE-AAC-v1よりも知覚品質が高いことを示す。
- 参考スコア(独自算出の注目度): 14.466825532313795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spectral band replication (SBR) enables bit-efficient coding by generating high-frequency bands from the low-frequency ones. However, it only utilizes coarse spectral features upon a subband-wise signal replication, limiting adaptability to diverse acoustic signals. In this paper, we explore the efficacy of a deep neural network (DNN)-based generative approach for coding the high-frequency bands, which we call neural spectral band generation (n-SBG). Specifically, we propose a DNN-based encoder-decoder structure to extract and quantize the side information related to the high-frequency components and generate the components given both the side information and the decoded core-band signals. The whole coding pipeline is optimized with generative adversarial criteria to enable the generation of perceptually plausible sound. From experiments using AAC as the core codec, we show that the proposed method achieves a better perceptual quality than HE-AAC-v1 with much less side information.
- Abstract(参考訳): スペクトルバンドレプリケーション(SBR)は、低周波帯域から高周波帯域を生成することにより、ビット効率の符号化を可能にする。
しかし、サブバンドワイド信号複製の粗いスペクトル特性しか利用せず、様々な音響信号への適応性を制限している。
本稿では,ニューラルスペクトルバンド生成(n-SBG)と呼ばれる高周波帯域を符号化するディープニューラルネットワーク(DNN)を用いた生成手法の有効性について検討する。
具体的には、DNNベースのエンコーダデコーダ構造を用いて、高周波成分に関連するサイド情報を抽出・定量化し、サイド情報とデコードコアバンド信号の両方を出力するコンポーネントを生成する。
符号化パイプライン全体は、知覚的可聴音の発生を可能にするために、生成的対向基準で最適化される。
コアコーデックとしてAACを用いた実験から,提案手法は側情報が少ないHE-AAC-v1よりも知覚品質が高いことを示した。
関連論文リスト
- FANeRV: Frequency Separation and Augmentation based Neural Representation for Video [32.35716293561769]
ビデオのための周波数分離と拡張に基づくニューラル表現(FANeRV)を提案する。
FANeRVは離散ウェーブレット変換を用いて入力フレームを高周波数成分と低周波数成分に明示的に分離する。
特別に設計されたゲートネットワークは、これらの周波数成分を効果的に融合して最適な再構成を行う。
論文 参考訳(メタデータ) (2025-04-09T10:19:35Z) - Unsupervised CP-UNet Framework for Denoising DAS Data with Decay Noise [13.466125373185399]
分散音響センサ(DAS)技術は光ファイバーケーブルを利用して音響信号を検出する。
DASは、ジオフォンよりも低い信号対雑音比(S/N)を示す。
これにより、S/Nの低減は、反転と解釈を含むデータ解析に悪影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-19T03:09:49Z) - VNet: A GAN-based Multi-Tier Discriminator Network for Speech Synthesis Vocoders [14.222389985736422]
VNetは、全帯域スペクトル情報を組み込んだGANベースのニューラルボコーダネットワークである。
VNetモデルは高忠実度音声を生成することができることを示す。
論文 参考訳(メタデータ) (2024-08-13T14:00:02Z) - Tuning the Frequencies: Robust Training for Sinusoidal Neural Networks [1.5124439914522694]
正弦波ネットワークの容量特性を説明する理論的枠組みを導入する。
入力周波数の整数結合として表される多数の新しい周波数を,その層組成によってどのように生成するかを示す。
提案手法はTUNERと呼ばれ, 正弦波INRトレーニングの安定性と収束性を大幅に改善し, より詳細な再建を行った。
論文 参考訳(メタデータ) (2024-07-30T18:24:46Z) - Rethinking Transformer-Based Blind-Spot Network for Self-Supervised Image Denoising [94.09442506816724]
BSN(Blind-spot Network)は、自己教師付き画像復調(SSID)におけるニューラルネットワークアーキテクチャとして広く使われている。
本研究では,Transformer ベースの Blind-Spot Network (TBSN) を構築した。
論文 参考訳(メタデータ) (2024-04-11T15:39:10Z) - Low-power SNN-based audio source localisation using a Hilbert Transform spike encoding scheme [4.49657690895714]
音源の定位は、個々の話者から音声を分離し、ノイズを除去するために、多くの消費者デバイスで使われている。
広帯域オーディオから狭帯域信号成分を得るには、高密度帯域通過フィルタが必要であることが多い。
超低消費電力スパイキングニューラルネットワーク(SNN)の効率的な実装を目的とした任意のマイクロホンアレイ上の音源定位手法を実証する。
提案手法は,従来の非SNN超解像ビームフォーミングに匹敵する,SNN法における最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-02-19T00:21:13Z) - Deep OFDM Channel Estimation: Capturing Frequency Recurrence [10.76835122839777]
OFDMシステムにおける深層学習に基づくチャネル推定手法を提案する。
我々は、単一OFDMスロット内で繰り返しニューラルネットワーク技術を採用し、レイテンシとメモリ制約を克服する。
提案したSisRafNetは、既存のディープラーニングに基づくチャネル推定手法と比較して優れた推定性能を提供する。
論文 参考訳(メタデータ) (2024-01-07T14:13:08Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - Distributed Deep Joint Source-Channel Coding with Decoder-Only Side
Information [6.411633100057159]
本稿では,受信側のみに相関する側情報が存在する場合,ノイズの多い無線チャネル上での低遅延画像伝送について検討する。
本稿では,デコーダのみの側情報をレシーバ側の複数段階に組み込んだ新しいニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-06T15:17:45Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - Disentangled Representation Learning for RF Fingerprint Extraction under
Unknown Channel Statistics [77.13542705329328]
本稿では,まず,不整合表現学習(DRL)の枠組みを提案し,入力信号を逆学習によりデバイス関連成分とデバイス関連成分に分解する。
提案フレームワークにおける暗黙的なデータ拡張は、デバイス非関連チャネル統計の過度な適合を避けるために、RFF抽出器に正規化を課す。
実験により、DR-RFFと呼ばれる提案手法は、未知の複雑な伝播環境に対する一般化可能性の観点から従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-04T15:46:48Z) - Deep Learning-Based Synchronization for Uplink NB-IoT [72.86843435313048]
狭帯域モノのインターネット(NB-IoT)における狭帯域物理ランダムアクセスチャネル(NPRACH)のデバイス検出と到着時刻推定のためのニューラルネットワーク(NN)に基づくアルゴリズムを提案する。
導入されたNNアーキテクチャは、残余の畳み込みネットワークと、5Gニューラジオ(5G NR)仕様のプリアンブル構造に関する知識を利用する。
論文 参考訳(メタデータ) (2022-05-22T12:16:43Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Parallel frequency function-deep neural network for efficient complex
broadband signal approximation [1.536989504296526]
ニューラルネットワークは本質的に、特徴フィッティングのためのネットワーク重みを調整することで、高次元の複雑なマッピングモデルである。
ネットワークトレーニングにおけるスペクトルバイアスは、ブロードバンド信号に高周波成分を適合させるには耐え難い訓練エポックをもたらす。
並列周波数関数ディープニューラルネットワーク(PFF-DNN)を提案する。
論文 参考訳(メタデータ) (2021-06-19T01:39:13Z) - Two-step Machine Learning Approach for Channel Estimation with Mixed
Resolution RF Chains [19.0581196881206]
機械学習(ML)アルゴリズムを適用し,効率的なアップリンクチャネル推定手法を提案する。
第1ステップでは、条件付き生成逆転ネットワーク(cGAN)は、フル解像度RFチェーンの限られたセットから低解像度RFチェーンアンテナ要素の残りの部分まで、無線チャネルを予測します。
長期長期メモリ(LSTM)ニューラルネットワークは、低分解能RFチェーンアンテナ要素からさらなる位相情報を抽出します。
論文 参考訳(メタデータ) (2021-01-24T12:33:54Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。