論文の概要: Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior
- arxiv url: http://arxiv.org/abs/2505.11315v1
- Date: Fri, 16 May 2025 14:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.285369
- Title: Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior
- Title(参考訳): ガウス先行音による音声効果スタイル伝達における推定時間最適化の改善
- Authors: Chin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Wei-Hsiang Liao, Yuki Mitsufuji, György Fazekas,
- Abstract要約: Style Transfer with Inference-Time optimisation (ST-ITO) は、参照音声の応用効果を生のオーディオトラックに転送する手法である。
本稿では,音声プレセットデータセットであるDiffVoxから派生したガウス先行データをパラメータ空間上に導入する。
結果の最適化は最大姿勢推定と等価である。
- 参考スコア(独自算出の注目度): 23.448790295875828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Style Transfer with Inference-Time Optimisation (ST-ITO) is a recent approach for transferring the applied effects of a reference audio to a raw audio track. It optimises the effect parameters to minimise the distance between the style embeddings of the processed audio and the reference. However, this method treats all possible configurations equally and relies solely on the embedding space, which can lead to unrealistic or biased results. We address this pitfall by introducing a Gaussian prior derived from a vocal preset dataset, DiffVox, over the parameter space. The resulting optimisation is equivalent to maximum-a-posteriori estimation. Evaluations on vocal effects transfer on the MedleyDB dataset show significant improvements across metrics compared to baselines, including a blind audio effects estimator, nearest-neighbour approaches, and uncalibrated ST-ITO. The proposed calibration reduces parameter mean squared error by up to 33% and matches the reference style better. Subjective evaluations with 16 participants confirm our method's superiority, especially in limited data regimes. This work demonstrates how incorporating prior knowledge in inference time enhances audio effects transfer, paving the way for more effective and realistic audio processing systems.
- Abstract(参考訳): Style Transfer with Inference-Time Optimisation (ST-ITO) は、参照音声の応用効果を生のオーディオトラックに転送する手法である。
これは、処理されたオーディオのスタイル埋め込みと参照の間の距離を最小化する効果パラメータを最適化する。
しかし、この方法は全ての可能な構成を等しく扱い、埋め込み空間にのみ依存し、非現実的あるいは偏見的な結果をもたらす可能性がある。
この落とし穴に対処するために、パラメータ空間上に声質プレセットデータセットDiffVoxから派生したガウス先行データを導入する。
結果の最適化は最大姿勢推定と等価である。
MedleyDBデータセットにおける発声効果伝達の評価は、ブラインドオーディオ効果推定器、近辺アプローチ、非校正ST-ITOなど、ベースラインと比較して、有意な改善が見られた。
パラメータ平均二乗誤差を最大33%削減し、参照スタイルによく適合する。
16名の被験者による主観評価の結果,特に限られたデータ体制において,本手法の優位性が確認された。
この研究は、推論時間に事前知識を組み込むことが、より効果的で現実的なオーディオ処理システムへの道を開くことによって、音声効果の伝達をいかに促進するかを示す。
関連論文リスト
- Optimal Transport Maps are Good Voice Converters [58.42556113055807]
本稿では,メル・スペクトログラムや自己教師付き音声モデルの潜在表現など,さまざまなデータ表現に最適なトランスポートアルゴリズムを提案する。
メリースペクトルデータ表現では、Frechet Audio Distance (FAD) を用いて強い結果が得られる。
我々は,限られた参照話者データであっても,最先端の成果を達成し,既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-17T22:48:53Z) - DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis [12.310318928818546]
DMOSpeechは, 蒸留拡散に基づくTSモデルであり, 教師モデルと比較して高速な推論と優れた性能を実現する。
我々の総合的な実験は、人間の広範囲な評価によって検証され、自然性、知性、話者の類似性を大幅に向上させながら、推測時間を桁違いに減らした。
本研究は,音声合成と人間の聴覚嗜好を協調する新たな枠組みを,直接的メートル法最適化により確立する。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - Partial Identification with Noisy Covariates: A Robust Optimization
Approach [94.10051154390237]
観測データセットからの因果推論は、しばしば共変量の測定と調整に依存する。
このロバストな最適化手法により、広範囲な因果調整法を拡張し、部分的同定を行うことができることを示す。
合成および実データセット全体で、このアプローチは既存の手法よりも高いカバレッジ確率でATEバウンダリを提供する。
論文 参考訳(メタデータ) (2022-02-22T04:24:26Z) - Spatial mixup: Directional loudness modification as data augmentation
for sound event localization and detection [9.0259157539478]
データ拡張のためのパラメトリック空間音響効果の応用として空間混合を提案する。
修正は特定の方向から到着するシグナルを増強または抑制するが、効果は顕著ではない。
この手法はDCASE 2021 Task 3のデータセットを用いて評価され、空間混合により非拡張ベースライン上での性能が向上する。
論文 参考訳(メタデータ) (2021-10-12T16:16:58Z) - Parameterized Channel Normalization for Far-field Deep Speaker
Verification [21.237143465298505]
我々は、チャネルごとのエネルギー正規化(PCEN)とパラメータ化ケプストラム平均正規化(PCMN)の2つのパラメトリック正規化手法に注目した。
我々は,近年の大規模遠距離音声コーパスであるHi-MIAの性能評価を行った。
提案手法は, 整合マイクロホンと整合マイクロホン条件下での等価誤差率に対して, 最大33.5%, 39.5%の相対的改善を達成し, 従来のメルフィルタバンク特性より優れていた。
論文 参考訳(メタデータ) (2021-09-24T16:22:31Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Exploring Quality and Generalizability in Parameterized Neural Audio
Effects [0.0]
ディープニューラルネットワークは、音楽オーディオ信号処理アプリケーションへの期待を示している。
これまでの結果は、低サンプリング率、ノイズ、信号タイプの狭い領域、および/またはパラメータ化制御の欠如によって制約される傾向にあった。
本研究は、非線形時間依存信号処理効果のモデル化に関する先行研究を拡大する。
論文 参考訳(メタデータ) (2020-06-10T00:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。