論文の概要: Model and Deep learning based Dynamic Range Compression Inversion
- arxiv url: http://arxiv.org/abs/2411.04337v1
- Date: Thu, 07 Nov 2024 00:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:45.182064
- Title: Model and Deep learning based Dynamic Range Compression Inversion
- Title(参考訳): ダイナミックレンジ圧縮インバージョンに基づくモデルとディープラーニング
- Authors: Haoran Sun, Dominique Fourer, Hichem Maaref,
- Abstract要約: DRCの反転は、元のダイナミクスを復元し、新しいミックスを生成したり、オーディオ信号の全体的な品質を改善するのに役立つ。
DRCインバージョンのためのニューラルネットワークを用いたモデルベースアプローチを提案する。
その結果,提案手法の有効性とロバスト性について,いくつかの最先端手法と比較した。
- 参考スコア(独自算出の注目度): 12.002024727237837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic Range Compression (DRC) is a popular audio effect used to control the dynamic range of a signal. Inverting DRC can also help to restore the original dynamics to produce new mixes and/or to improve the overall quality of the audio signal. Since, state-of-the-art DRC inversion techniques either ignore parameters or require precise parameters that are difficult to estimate, we fill the gap by combining a model-based approach with neural networks for DRC inversion. To this end, depending on the scenario, we use different neural networks to estimate DRC parameters. Then, a model-based inversion is completed to restore the original audio signal. Our experimental results show the effectiveness and robustness of the proposed method in comparison to several state-of-the-art methods, when applied on two music datasets.
- Abstract(参考訳): ダイナミックレンジ圧縮(Dynamic Range Compression、DRC)は、信号のダイナミックレンジを制御するために使われる一般的なオーディオ効果である。
DRCを反転させることは、元のダイナミクスを復元して新しいミックスを生成したり、オーディオ信号の全体的な品質を改善するのにも役立ちます。
現状のDRCインバージョン技術はパラメータを無視したり、推定が難しい正確なパラメータを必要とするため、モデルベースアプローチとDRCインバージョンのためのニューラルネットワークを組み合わせることでギャップを埋める。
この目的のために、シナリオに応じて、異なるニューラルネットワークを使用してDRCパラメータを推定する。
そして、モデルベースの反転が完了し、元の音声信号を復元する。
実験の結果,2つの音楽データセットに適用した場合,提案手法の有効性とロバスト性を示した。
関連論文リスト
- Interlaced dynamic XCT reconstruction with spatio-temporal implicit neural representations [0.0]
Inmplicit Neural Representations を用いた動的X線CT(Dynamic X-ray Computed Tomography)再構成の検討を行った。
提案手法は,ADMMに基づく最適化と,事前知識を組み込んだ条件付けフレームワークINCODEを組み合わせることで,効率的な収束を実現する。
全ての設定において、我々のモデルは強力なパフォーマンスのロバスト性を実現し、最先端のモデルベース反復法であるTIMBIR(Time-Inter Model-Based Iter Reconstruction)より優れている。
論文 参考訳(メタデータ) (2025-10-09T01:33:58Z) - Denoising and Reconstruction of Nonlinear Dynamics using Truncated Reservoir Computing [0.0]
本稿では,ノイズフィルタリングと非線形ダイナミクス再構築のための新しいReservoir Computing(RC)手法を提案する。
動的パラメータにおける雑音強度, 雑音周波数, および劇的なシフトの観点から, RCの性能について検討した。
演算器の冗長ノードとエッジをトラッピングすることで,デノナイジング性能が向上することが示されている。
論文 参考訳(メタデータ) (2025-04-17T21:47:13Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Dynamic-Aware Spatio-temporal Representation Learning for Dynamic MRI Reconstruction [7.704793488616996]
InRに基づく動的MRI再構成モデルであるDynamic-Aware INR (DA-INR)を提案する。
画像領域におけるダイナミックMRIデータの空間的・時間的連続性を捉え、データの時間的冗長性をモデル構造に明示的に組み込む。
その結果、DA-INRは極端アンサンプ比でも復元品質で他のモデルより優れる。
論文 参考訳(メタデータ) (2025-01-15T12:11:33Z) - Releasing the Parameter Latency of Neural Representation for High-Efficiency Video Compression [18.769136361963472]
暗黙的ニューラル表現(INR)技術は、ビデオ全体を基本単位としてモデル化し、フレーム内およびフレーム間の相関を自動的にキャプチャする。
本稿では,INRビデオ圧縮の速度歪み特性を大幅に向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T15:19:31Z) - Modeling Time-Variant Responses of Optical Compressors with Selective State Space Models [0.0]
本稿では,Selective State Spaceモデルを用いたディープニューラルネットワークを用いた光学ダイナミックレンジ圧縮機のモデル化手法を提案する。
ネットワークを動的に調整するために、機能ワイドリニア変調とゲート付きリニアユニットを統合した洗練された技術が特徴である。
提案アーキテクチャは、ライブオーディオ処理において重要な低レイテンシおよびリアルタイムアプリケーションに適している。
論文 参考訳(メタデータ) (2024-08-22T17:03:08Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Conditional variational autoencoder to improve neural audio synthesis
for polyphonic music sound [4.002298833349517]
高品質な音声波形合成のためのリアルタイムオーディオ変分オートエンコーダ (RAVE) 法を開発した。
本研究では,条件付き変分オートエンコーダ構造と完全連結層を付加した拡張RAVEモデルを提案する。
提案モデルでは従来のRAVEモデルよりも性能と安定性が向上した。
論文 参考訳(メタデータ) (2022-11-16T07:11:56Z) - Nonparallel High-Quality Audio Super Resolution with Domain Adaptation
and Resampling CycleGANs [9.593925140084846]
本稿では,2つの連結サイクル一貫した生成対向ネットワーク(CycleGAN)に基づいて,未ペアデータを利用する高品質なオーディオ超解像法を提案する。
本手法は,非対向低分解能信号と高分解能信号の音響ミスマッチを処理するために,超解像法を領域適応・再サンプリング法に分解する。
提案手法は,ペアデータの利用が不可能な場合,従来の手法よりも有意に優れていたことが実験的に検証された。
論文 参考訳(メタデータ) (2022-10-28T04:32:59Z) - Multi-stage image denoising with the wavelet transform [125.2251438120701]
深部畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)は、正確な構造情報を自動マイニングすることで、画像の復調に使用される。
動的畳み込みブロック(DCB)、2つのカスケードウェーブレット変換および拡張ブロック(WEB)、残留ブロック(RB)の3段階を経由した、MWDCNNによるCNNの多段階化を提案する。
論文 参考訳(メタデータ) (2022-09-26T03:28:23Z) - ReconFormer: Accelerated MRI Reconstruction Using Recurrent Transformer [60.27951773998535]
本稿では,MRI再構成のためのリカレントトランスモデルである textbfReconFormer を提案する。
高度にアンダーサンプリングされたk空間データから高純度磁気共鳴像を反復的に再構成することができる。
パラメータ効率が向上し,最先端手法よりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-01-23T21:58:19Z) - Active Restoration of Lost Audio Signals Using Machine Learning and
Latent Information [0.7252027234425334]
本稿では, ステガノグラフィー, ハーフトニング(ディザリング), 最先端の浅層・深層学習法の組み合わせを提案する。
本研究では,信号対雑音比(SNR),目標差次数(ODG),およびハンセンの音質測定値を用いて,塗装性能の向上を示す。
論文 参考訳(メタデータ) (2021-11-21T20:11:33Z) - Robust lEarned Shrinkage-Thresholding (REST): Robust unrolling for
sparse recover [87.28082715343896]
我々は、モデルミス特定を前進させるのに堅牢な逆問題を解決するためのディープニューラルネットワークについて検討する。
我々は,アルゴリズムの展開手法を根底にある回復問題のロバストバージョンに適用することにより,新しい堅牢なディープニューラルネットワークアーキテクチャを設計する。
提案したRESTネットワークは,圧縮センシングとレーダイメージングの両問題において,最先端のモデルベースおよびデータ駆動アルゴリズムを上回る性能を示す。
論文 参考訳(メタデータ) (2021-10-20T06:15:45Z) - Neural Model Reprogramming with Similarity Based Mapping for
Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。
ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。
提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文 参考訳(メタデータ) (2021-10-08T05:07:35Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Compute and memory efficient universal sound source separation [23.152611264259225]
汎用オーディオソース分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供します。
この畳み込みネットワークのバックボーン構造は、SuDoRM-RF(Sccessive DOwnsampling and Resampling of Multi-Resolution Features)である。
実験の結果,SuDoRM-RFモデルは相容れない性能を示し,またいくつかの最先端ベンチマークを上回る性能を示した。
論文 参考訳(メタデータ) (2021-03-03T19:16:53Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。