論文の概要: Differentiable Signal Processing With Black-Box Audio Effects
- arxiv url: http://arxiv.org/abs/2105.04752v1
- Date: Tue, 11 May 2021 02:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 02:08:01.563048
- Title: Differentiable Signal Processing With Black-Box Audio Effects
- Title(参考訳): ブラックボックス音声効果を用いた微分可能信号処理
- Authors: Marco A. Mart\'inez Ram\'irez, Oliver Wang, Paris Smaragdis, Nicholas
J. Bryan
- Abstract要約: 本稿では,ステートフルなサードパーティの音声効果をディープニューラルネットワーク内のレイヤとして組み込むことで,音声信号処理を自動化するデータ駆動手法を提案する。
我々の手法は、音楽マスタリングのための専門的で最先端の商用ソリューションに匹敵する結果を得られることを示す。
- 参考スコア(独自算出の注目度): 44.93154498647659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a data-driven approach to automate audio signal processing by
incorporating stateful third-party, audio effects as layers within a deep
neural network. We then train a deep encoder to analyze input audio and control
effect parameters to perform the desired signal manipulation, requiring only
input-target paired audio data as supervision. To train our network with
non-differentiable black-box effects layers, we use a fast, parallel stochastic
gradient approximation scheme within a standard auto differentiation graph,
yielding efficient end-to-end backpropagation. We demonstrate the power of our
approach with three separate automatic audio production applications: tube
amplifier emulation, automatic removal of breaths and pops from voice
recordings, and automatic music mastering. We validate our results with a
subjective listening test, showing our approach not only can enable new
automatic audio effects tasks, but can yield results comparable to a
specialized, state-of-the-art commercial solution for music mastering.
- Abstract(参考訳): 本稿では,ステートフルなサードパーティの音声効果をディープニューラルネットワーク内のレイヤとして組み込むことで,音声信号処理を自動化するデータ駆動手法を提案する。
次に、入力音声と制御効果パラメータを分析するためにディープエンコーダを訓練し、所望の信号操作を行う。
ネットワークを非微分可能なブラックボックス効果層でトレーニングするために、標準的な自己微分グラフ内で高速で並列な確率勾配近似スキームを用いて、効率的なエンドツーエンドのバックプロパゲーションを実現する。
提案手法は,チューブアンプエミュレーション,音声録音からの呼吸やポップの自動除去,自動音楽マスタリングという,3つの異なる自動オーディオ制作アプリケーションによって実現されている。
提案手法を主観的聴取テストで検証し,新たな音響効果タスクを実現するだけでなく,音楽マスタリングのための専門的で最先端の商用ソリューションに匹敵する結果を得られることを示す。
関連論文リスト
- Open-Amp: Synthetic Data Framework for Audio Effect Foundation Models [4.569691863088947]
本稿では,大規模かつ多様なオーディオエフェクトデータを生成するための合成データフレームワークであるOpen-Ampを紹介する。
実験により, ギターエフェクトエンコーダの訓練に Open-Amp を用いることで, 複数のギターエフェクト分類タスクにおいて, 新たな最先端結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-22T14:27:59Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Human Voice Pitch Estimation: A Convolutional Network with Auto-Labeled
and Synthetic Data [0.0]
本稿では,ピッチ抽出のための特殊な畳み込みニューラルネットワークを提案する。
提案手法は,合成データと自動ラベル付アカペラ歌唱音声を組み合わせることで,ロバストなトレーニング環境を構築する。
この研究は、音楽と音声の両方において、ピッチ抽出の強化の道を開くものである。
論文 参考訳(メタデータ) (2023-08-14T14:26:52Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Music Mixing Style Transfer: A Contrastive Learning Approach to
Disentangle Audio Effects [23.29395422386749]
入力されたマルチトラックのミキシングスタイルを参照歌のミキシングスタイルに変換するエンド・ツー・エンドのミキシングスタイル転送システムを提案する。
これは、基準音楽記録からオーディオ効果関連情報のみを抽出するために、コントラスト目的で事前訓練されたエンコーダで達成される。
論文 参考訳(メタデータ) (2022-11-04T03:45:17Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Removing Distortion Effects in Music Using Deep Neural Networks [12.497836634060569]
本稿では,音楽制作のためのギタートラックに適用される歪みやクリップの除去に焦点をあてる。
これは、このタスクにおける異なるディープニューラルネットワーク(DNN)アーキテクチャの比較研究を示す。
歪み信号に対するクリーン信号を重畳する効果に対して,DNNを用いた歪み除去において,優れた結果が得られる。
論文 参考訳(メタデータ) (2022-02-03T16:26:29Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。