論文の概要: Style Transfer for Non-differentiable Audio Effects
- arxiv url: http://arxiv.org/abs/2309.17125v1
- Date: Fri, 29 Sep 2023 10:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 14:36:59.848427
- Title: Style Transfer for Non-differentiable Audio Effects
- Title(参考訳): 非微分型オーディオ効果のためのスタイル転送
- Authors: Kieran Grant
- Abstract要約: 音声生成スタイルマッチングの深層学習手法を提案する。
提案手法には,様々な効果のクラスに対するスタイルマッチングが含まれており,その多くが微分可能関数を用いて密接に近似することは困難あるいは不可能である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Digital audio effects are widely used by audio engineers to alter the
acoustic and temporal qualities of audio data. However, these effects can have
a large number of parameters which can make them difficult to learn for
beginners and hamper creativity for professionals. Recently, there have been a
number of efforts to employ progress in deep learning to acquire the low-level
parameter configurations of audio effects by minimising an objective function
between an input and reference track, commonly referred to as style transfer.
However, current approaches use inflexible black-box techniques or require that
the effects under consideration are implemented in an auto-differentiation
framework. In this work, we propose a deep learning approach to audio
production style matching which can be used with effects implemented in some of
the most widely used frameworks, requiring only that the parameters under
consideration have a continuous domain. Further, our method includes style
matching for various classes of effects, many of which are difficult or
impossible to be approximated closely using differentiable functions. We show
that our audio embedding approach creates logical encodings of timbral
information, which can be used for a number of downstream tasks. Further, we
perform a listening test which demonstrates that our approach is able to
convincingly style match a multi-band compressor effect.
- Abstract(参考訳): デジタルオーディオ効果は、オーディオエンジニアがオーディオデータの音響的・時間的性質を変えるために広く使われている。
しかし、これらの効果には多くのパラメータがあり、初心者の学習を困難にし、プロの創造性を阻害することができる。
近年、入力と参照トラック間の目的関数を最小化し、オーディオ効果の低レベルパラメータ構成を取得するために、ディープラーニングの進歩を利用する取り組みが数多く行われている。
しかし、現在のアプローチでは、柔軟性のないブラックボックス技術を使うか、あるいは考慮中の効果を自動微分フレームワークで実装する必要がある。
本研究では、最も広く使われているフレームワークのいくつかで実装されたエフェクトと併用可能な、オーディオ生産スタイルマッチングに対するディープラーニングアプローチを提案する。
さらに,様々な効果クラスに対するスタイルマッチングも含むが,その多くが微分可能関数を用いて近似することは困難か不可能である。
音声埋め込み手法は,複数の下流タスクに使用可能な,音節情報の論理的エンコーディングを生成する。
さらに,本手法がマルチバンド圧縮機効果に適合できることを示すリスニングテストを実施した。
関連論文リスト
- Robust Network Learning via Inverse Scale Variational Sparsification [55.64935887249435]
時間連続な逆スケール空間の定式化において、逆スケールの変動スペーサー化フレームワークを導入する。
周波数ベースの手法とは異なり、我々の手法は小さな特徴を滑らかにすることでノイズを除去するだけでなく、ノイズを除去する。
各種騒音に対する頑健性の向上によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-09-27T03:17:35Z) - Biomimetic Frontend for Differentiable Audio Processing [5.13105998753022]
従来の説明可能な信号処理アプローチとディープラーニングフレームワークを組み合わせられるように、人間の聴覚の古典的なモデルを構築し、それを識別可能にする。
これにより、控えめな量のデータで簡単にトレーニングできる表現的で説明可能なモデルにたどり着くことができます。
その結果, 学習データが少ない場合でも, 計算効率やロバスト性において, 識別可能なモデルがブラックボックスアプローチを超越していることが判明した。
論文 参考訳(メタデータ) (2024-09-13T17:23:42Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - Audio Contrastive based Fine-tuning [21.145936249583446]
本稿では,音声コントラストに基づくファインチューニング(AudioConFit)を,頑健な汎用性を特徴とする効率的なアプローチとして紹介する。
様々な音声分類タスクに関する実証実験により,提案手法の有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2023-09-21T08:59:13Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Music Mixing Style Transfer: A Contrastive Learning Approach to
Disentangle Audio Effects [23.29395422386749]
入力されたマルチトラックのミキシングスタイルを参照歌のミキシングスタイルに変換するエンド・ツー・エンドのミキシングスタイル転送システムを提案する。
これは、基準音楽記録からオーディオ効果関連情報のみを抽出するために、コントラスト目的で事前訓練されたエンコーダで達成される。
論文 参考訳(メタデータ) (2022-11-04T03:45:17Z) - Modelling black-box audio effects with time-varying feature modulation [13.378050193507907]
ファズやダイナミックレンジ圧縮などの音響効果をモデル化する場合,既存のアーキテクチャの幅,深さ,拡張係数のスケーリングは良好な性能を得られないことを示す。
時間的特徴量線形変調を既存の時間的畳み込みバックボーンに統合することを提案する。
提案手法は,時間領域と周波数領域の双方において,ファズ・コンプレッサー実装の長距離依存性をより正確に捉えることができることを示す。
論文 参考訳(メタデータ) (2022-11-01T14:41:57Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - LEAF: A Learnable Frontend for Audio Classification [18.696215611965204]
mel-filterbanksの代替として使用できる、原則付き、軽量、完全に学習可能なアーキテクチャを導入しました。
本システムでは,フィルタリングからプール,圧縮,正規化まで,音声特徴抽出のすべての操作を学習し,任意のニューラルネットワークに統合することができる。
論文 参考訳(メタデータ) (2021-01-21T13:25:58Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。