論文の概要: Modelling black-box audio effects with time-varying feature modulation
- arxiv url: http://arxiv.org/abs/2211.00497v1
- Date: Tue, 1 Nov 2022 14:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:44:24.139056
- Title: Modelling black-box audio effects with time-varying feature modulation
- Title(参考訳): 時間変動特徴変調によるブラックボックス音響効果のモデル化
- Authors: Marco Comunit\`a, Christian J. Steinmetz, Huy Phan, Joshua D. Reiss
- Abstract要約: ファズやダイナミックレンジ圧縮などの音響効果をモデル化する場合,既存のアーキテクチャの幅,深さ,拡張係数のスケーリングは良好な性能を得られないことを示す。
時間的特徴量線形変調を既存の時間的畳み込みバックボーンに統合することを提案する。
提案手法は,時間領域と周波数領域の双方において,ファズ・コンプレッサー実装の長距離依存性をより正確に捉えることができることを示す。
- 参考スコア(独自算出の注目度): 13.378050193507907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning approaches for black-box modelling of audio effects have shown
promise, however, the majority of existing work focuses on nonlinear effects
with behaviour on relatively short time-scales, such as guitar amplifiers and
distortion. While recurrent and convolutional architectures can theoretically
be extended to capture behaviour at longer time scales, we show that simply
scaling the width, depth, or dilation factor of existing architectures does not
result in satisfactory performance when modelling audio effects such as fuzz
and dynamic range compression. To address this, we propose the integration of
time-varying feature-wise linear modulation into existing temporal
convolutional backbones, an approach that enables learnable adaptation of the
intermediate activations. We demonstrate that our approach more accurately
captures long-range dependencies for a range of fuzz and compressor
implementations across both time and frequency domain metrics. We provide sound
examples, source code, and pretrained models to faciliate reproducibility.
- Abstract(参考訳): 音声効果のブラックボックスモデリングのためのディープラーニングアプローチは期待されているが、既存の研究の大部分は、ギターアンプや歪みといった比較的短い時間スケールでの振る舞いを伴う非線形効果に焦点を当てている。
再帰的および畳み込み的アーキテクチャは、より長い時間スケールで振る舞いを捉えるために理論的に拡張できるが、既存のアーキテクチャの幅、深さ、拡張係数を単純にスケーリングするだけでは、ファズやダイナミックレンジ圧縮のようなオーディオ効果をモデル化する場合には、十分な性能が得られないことを示す。
そこで本研究では,時間変化による特徴量線形変調を時間的畳み込みバックボーンに統合し,中間アクティベーションの学習可能な適応を可能にする手法を提案する。
提案手法は,時間領域と周波数領域の両方で,ファズ・コンプレッサー実装の長距離依存性をより正確に把握する。
再現性を高めるために、音響サンプル、ソースコード、事前訓練されたモデルを提供する。
関連論文リスト
- Comparative Study of State-based Neural Networks for Virtual Analog Audio Effects Modeling [0.0]
本稿では,仮想アナログモデリングにおける機械学習の応用について考察する。
我々は、ステートスペースモデルと線形リカレントユニットを、より一般的なLong Short-Term Memoryネットワークと比較する。
論文 参考訳(メタデータ) (2024-05-07T08:47:40Z) - TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Differentiable Grey-box Modelling of Phaser Effects using Frame-based
Spectral Processing [21.053861381437827]
本研究は位相効果をモデル化するデジタル信号処理手法を提案する。
提案モデルでは,周波数領域に時間変化フィルタを実装するために,短いフレームで音声を処理する。
このモデルでは、解釈可能なパラメータと調整可能なパラメータを保持しながら、アナログ参照デバイスをエミュレートするように訓練できることが示される。
論文 参考訳(メタデータ) (2023-06-02T07:53:41Z) - On Compressing Sequences for Self-Supervised Speech Models [78.62210521316081]
自己教師型学習における時間軸に沿った固定長と可変長のサブサンプリングについて検討した。
可変長サブサンプリングは,低フレームレートで特に良好に動作することがわかった。
音素境界にアクセスできる場合、平均フレームレートが10Hz以下の場合、性能の劣化は見つからない。
論文 参考訳(メタデータ) (2022-10-13T17:10:02Z) - Streamable Neural Audio Synthesis With Non-Causal Convolutions [1.8275108630751844]
非因果的ストリーミングモデルを生成するための新しい手法を提案する。
これにより、任意の畳み込みモデルをリアルタイムバッファベースの処理と互換性を持たせることができる。
並列ブランチで複雑なアーキテクチャに適合させる方法を示す。
論文 参考訳(メタデータ) (2022-04-14T16:00:32Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - Exploring Quality and Generalizability in Parameterized Neural Audio
Effects [0.0]
ディープニューラルネットワークは、音楽オーディオ信号処理アプリケーションへの期待を示している。
これまでの結果は、低サンプリング率、ノイズ、信号タイプの狭い領域、および/またはパラメータ化制御の欠如によって制約される傾向にあった。
本研究は、非線形時間依存信号処理効果のモデル化に関する先行研究を拡大する。
論文 参考訳(メタデータ) (2020-06-10T00:52:08Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。