論文の概要: Neural-Enhanced Dynamic Range Compression Inversion: A Hybrid Approach for Restoring Audio Dynamics
- arxiv url: http://arxiv.org/abs/2411.04337v2
- Date: Tue, 09 Sep 2025 19:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:51.946456
- Title: Neural-Enhanced Dynamic Range Compression Inversion: A Hybrid Approach for Restoring Audio Dynamics
- Title(参考訳): ニューラル強化ダイナミックレンジ圧縮インバージョン:オーディオダイナミクス回復のためのハイブリッドアプローチ
- Authors: Haoran Sun, Dominique Fourer, Hichem Maaref,
- Abstract要約: ダイナミックレンジ圧縮(Dynamic Range Compression, DRC)は、音楽制作、放送、音声処理における信号力学を調節する効果である。
既存のDRCインバージョン手法は、キーパラメータを見渡すか、正確なパラメータ値に頼るかのいずれかであり、正確に見積もるのは困難である。
モデルベースDRCインバージョンとニューラルネットワークを組み合わせるハイブリッドアプローチを導入し、堅牢なDRCパラメータ推定とオーディオ復元を同時に実現する。
- 参考スコア(独自算出の注目度): 18.219015975713003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic Range Compression (DRC) is a widely used audio effect that adjusts signal dynamics for applications in music production, broadcasting, and speech processing. Inverting DRC is of broad importance for restoring the original dynamics, enabling remixing, and enhancing the overall audio quality. Existing DRC inversion methods either overlook key parameters or rely on precise parameter values, which can be challenging to estimate accurately. To address this limitation, we introduce a hybrid approach that combines model-based DRC inversion with neural networks to achieve robust DRC parameter estimation and audio restoration simultaneously. Our method uses tailored neural network architectures (classification and regression), which are then integrated into a model-based inversion framework to reconstruct the original signal. Experimental evaluations on various music and speech datasets confirm the effectiveness and robustness of our approach, outperforming several state-of-the-art techniques.
- Abstract(参考訳): ダイナミックレンジ圧縮(Dynamic Range Compression, DRC)は、音楽制作、放送、音声処理における信号力学を調節する効果である。
DRCの反転は、元のダイナミクスを復元し、リミックスを可能にし、全体的なオーディオ品質を向上させるために広く重要である。
既存のDRCインバージョン手法は、キーパラメータを見渡すか、正確なパラメータ値に頼るかのいずれかであり、正確に見積もるのは困難である。
この制限に対処するために、モデルベースDRCインバージョンとニューラルネットワークを組み合わせたハイブリッドアプローチを導入し、堅牢なDRCパラメータ推定とオーディオ復元を同時に実現した。
提案手法では,ニューラルネットワークアーキテクチャ(分類と回帰)をモデルベース逆転フレームワークに統合し,元の信号を再構成する。
様々な音楽・音声データセットの実験的評価により, 提案手法の有効性とロバスト性が確認され, 最先端技術よりも優れていた。
関連論文リスト
- Denoising and Reconstruction of Nonlinear Dynamics using Truncated Reservoir Computing [0.0]
本稿では,ノイズフィルタリングと非線形ダイナミクス再構築のための新しいReservoir Computing(RC)手法を提案する。
動的パラメータにおける雑音強度, 雑音周波数, および劇的なシフトの観点から, RCの性能について検討した。
演算器の冗長ノードとエッジをトラッピングすることで,デノナイジング性能が向上することが示されている。
論文 参考訳(メタデータ) (2025-04-17T21:47:13Z) - Dynamic-Aware Spatio-temporal Representation Learning for Dynamic MRI Reconstruction [7.704793488616996]
InRに基づく動的MRI再構成モデルであるDynamic-Aware INR (DA-INR)を提案する。
画像領域におけるダイナミックMRIデータの空間的・時間的連続性を捉え、データの時間的冗長性をモデル構造に明示的に組み込む。
その結果、DA-INRは極端アンサンプ比でも復元品質で他のモデルより優れる。
論文 参考訳(メタデータ) (2025-01-15T12:11:33Z) - Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models [0.0]
本稿では,Selective State Spaceモデルを用いたディープニューラルネットワークを用いた光学ダイナミックレンジ圧縮機のモデル化手法を提案する。
ネットワークを動的に調整するために、機能ワイドリニア変調とゲート付きリニアユニットを統合した洗練された技術が特徴である。
提案アーキテクチャは、ライブオーディオ処理において重要な低レイテンシおよびリアルタイムアプリケーションに適している。
論文 参考訳(メタデータ) (2024-08-22T17:03:08Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Conditional variational autoencoder to improve neural audio synthesis
for polyphonic music sound [4.002298833349517]
高品質な音声波形合成のためのリアルタイムオーディオ変分オートエンコーダ (RAVE) 法を開発した。
本研究では,条件付き変分オートエンコーダ構造と完全連結層を付加した拡張RAVEモデルを提案する。
提案モデルでは従来のRAVEモデルよりも性能と安定性が向上した。
論文 参考訳(メタデータ) (2022-11-16T07:11:56Z) - Nonparallel High-Quality Audio Super Resolution with Domain Adaptation
and Resampling CycleGANs [9.593925140084846]
本稿では,2つの連結サイクル一貫した生成対向ネットワーク(CycleGAN)に基づいて,未ペアデータを利用する高品質なオーディオ超解像法を提案する。
本手法は,非対向低分解能信号と高分解能信号の音響ミスマッチを処理するために,超解像法を領域適応・再サンプリング法に分解する。
提案手法は,ペアデータの利用が不可能な場合,従来の手法よりも有意に優れていたことが実験的に検証された。
論文 参考訳(メタデータ) (2022-10-28T04:32:59Z) - Multi-stage image denoising with the wavelet transform [125.2251438120701]
深部畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)は、正確な構造情報を自動マイニングすることで、画像の復調に使用される。
動的畳み込みブロック(DCB)、2つのカスケードウェーブレット変換および拡張ブロック(WEB)、残留ブロック(RB)の3段階を経由した、MWDCNNによるCNNの多段階化を提案する。
論文 参考訳(メタデータ) (2022-09-26T03:28:23Z) - Active Restoration of Lost Audio Signals Using Machine Learning and
Latent Information [0.7252027234425334]
本稿では, ステガノグラフィー, ハーフトニング(ディザリング), 最先端の浅層・深層学習法の組み合わせを提案する。
本研究では,信号対雑音比(SNR),目標差次数(ODG),およびハンセンの音質測定値を用いて,塗装性能の向上を示す。
論文 参考訳(メタデータ) (2021-11-21T20:11:33Z) - Robust lEarned Shrinkage-Thresholding (REST): Robust unrolling for
sparse recover [87.28082715343896]
我々は、モデルミス特定を前進させるのに堅牢な逆問題を解決するためのディープニューラルネットワークについて検討する。
我々は,アルゴリズムの展開手法を根底にある回復問題のロバストバージョンに適用することにより,新しい堅牢なディープニューラルネットワークアーキテクチャを設計する。
提案したRESTネットワークは,圧縮センシングとレーダイメージングの両問題において,最先端のモデルベースおよびデータ駆動アルゴリズムを上回る性能を示す。
論文 参考訳(メタデータ) (2021-10-20T06:15:45Z) - Compute and memory efficient universal sound source separation [23.152611264259225]
汎用オーディオソース分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供します。
この畳み込みネットワークのバックボーン構造は、SuDoRM-RF(Sccessive DOwnsampling and Resampling of Multi-Resolution Features)である。
実験の結果,SuDoRM-RFモデルは相容れない性能を示し,またいくつかの最先端ベンチマークを上回る性能を示した。
論文 参考訳(メタデータ) (2021-03-03T19:16:53Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。