論文の概要: Time-Varying Audio Effect Modeling by End-to-End Adversarial Training
- arxiv url: http://arxiv.org/abs/2512.15313v1
- Date: Wed, 17 Dec 2025 11:04:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.950693
- Title: Time-Varying Audio Effect Modeling by End-to-End Adversarial Training
- Title(参考訳): エンド・ツー・エンド対応学習による時変音響効果のモデル化
- Authors: Yann Bourdin, Pierrick Legrand, Fanny Roche,
- Abstract要約: 本稿では,入力出力音声のみを用いて効果をモデル化するためのGAN(Generative Adversarial Network)フレームワークを提案する。
最初の逆相は、厳密な位相制約なしに変調挙動の分布を学習することを可能にする。
状態予測ネットワーク(SPN)は、モデルとターゲットを同期させるために必要な初期内部状態を推定する。
- 参考スコア(独自算出の注目度): 0.6688641196358245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has become a standard approach for the modeling of audio effects, yet strictly black-box modeling remains problematic for time-varying systems. Unlike time-invariant effects, training models on devices with internal modulation typically requires the recording or extraction of control signals to ensure the time-alignment required by standard loss functions. This paper introduces a Generative Adversarial Network (GAN) framework to model such effects using only input-output audio recordings, removing the need for modulation signal extraction. We propose a convolutional-recurrent architecture trained via a two-stage strategy: an initial adversarial phase allows the model to learn the distribution of the modulation behavior without strict phase constraints, followed by a supervised fine-tuning phase where a State Prediction Network (SPN) estimates the initial internal states required to synchronize the model with the target. Additionally, a new objective metric based on chirp-train signals is developed to quantify modulation accuracy. Experiments modeling a vintage hardware phaser demonstrate the method's ability to capture time-varying dynamics in a fully black-box context.
- Abstract(参考訳): 深層学習は音声効果のモデリングの標準手法となっているが、時間変化のシステムでは厳密なブラックボックスモデリングが問題となっている。
時間不変効果とは異なり、内部変調を持つデバイス上でのトレーニングモデルでは、標準損失関数が要求する時間調整を保証するために、制御信号の記録または抽出が必要となる。
本稿では,入力出力音声のみを用いて,その効果をモデル化するGANフレームワークを提案する。
本稿では,2段階戦略を用いて学習した畳み込み再帰的アーキテクチャを提案する。初期逆相は,厳密な位相制約を伴わずに変調動作の分布を学習し,続いて状態予測ネットワーク(SPN)がモデルとターゲットを同期させるために必要な初期内部状態を推定する教師付き微調整相を示す。
さらに、変調精度を定量化するために、チャープトレイン信号に基づく新しい客観的指標を開発した。
ヴィンテージハードウェアフェーズラをモデル化した実験では、完全にブラックボックスのコンテキストで時間変化のダイナミクスをキャプチャする手法の能力を実証している。
関連論文リスト
- Efficient Conditional Generation on Scale-based Visual Autoregressive Models [26.81493253536486]
効率的な制御モデル(英語: Efficient Control Model、ECM)は、分散アーキテクチャを介して制御信号を導入する軽量制御モジュールを備えたプラグイン・アンド・プレイフレームワークである。
ECMは、リアルタイムに生成されたトークンと、その限られた容量の利用を最大化するために設計された共有フィードフォワードネットワーク(FFN)を用いて、条件付き機能を洗練する。
提案手法は,既存のベースラインを越えつつ,トレーニングと推論の効率を大幅に向上させるとともに,画像生成に対する高忠実かつ多様な制御を実現する。
論文 参考訳(メタデータ) (2025-10-07T06:27:03Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control [45.84205238554709]
本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。
エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - Differentiable Grey-box Modelling of Phaser Effects using Frame-based
Spectral Processing [21.053861381437827]
本研究は位相効果をモデル化するデジタル信号処理手法を提案する。
提案モデルでは,周波数領域に時間変化フィルタを実装するために,短いフレームで音声を処理する。
このモデルでは、解釈可能なパラメータと調整可能なパラメータを保持しながら、アナログ参照デバイスをエミュレートするように訓練できることが示される。
論文 参考訳(メタデータ) (2023-06-02T07:53:41Z) - Modelling black-box audio effects with time-varying feature modulation [13.378050193507907]
ファズやダイナミックレンジ圧縮などの音響効果をモデル化する場合,既存のアーキテクチャの幅,深さ,拡張係数のスケーリングは良好な性能を得られないことを示す。
時間的特徴量線形変調を既存の時間的畳み込みバックボーンに統合することを提案する。
提案手法は,時間領域と周波数領域の双方において,ファズ・コンプレッサー実装の長距離依存性をより正確に捉えることができることを示す。
論文 参考訳(メタデータ) (2022-11-01T14:41:57Z) - Time-to-Green predictions for fully-actuated signal control systems with
supervised learning [56.66331540599836]
本稿では,集約信号とループ検出データを用いた時系列予測フレームワークを提案する。
我々は、最先端の機械学習モデルを用いて、将来の信号位相の持続時間を予測する。
スイスのチューリッヒの信号制御システムから得られた経験的データに基づいて、機械学習モデルが従来の予測手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-24T07:50:43Z) - Active Tuning [0.5801044612920815]
ニューラルネットワーク(RNN)の内部ダイナミクスを高速に最適化するための新しいパラダイムであるActive Tuningを紹介する。
従来のシーケンス間マッピング方式とは対照的に、Active Tuningは入力ストリームからRNNのリカレントニューラルアクティビティを分離する。
いくつかの時系列予測ベンチマークにおいてアクティブチューニングの有効性を示す。
論文 参考訳(メタデータ) (2020-10-02T20:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。