論文の概要: Self-Supervised VQ-VAE For One-Shot Music Style Transfer
- arxiv url: http://arxiv.org/abs/2102.05749v1
- Date: Wed, 10 Feb 2021 21:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:19:19.089029
- Title: Self-Supervised VQ-VAE For One-Shot Music Style Transfer
- Title(参考訳): ワンショット音楽スタイル転送のための自己監督VQ-VAE
- Authors: Ond\v{r}ej C\'ifka, Alexey Ozerov, Umut \c{S}im\c{s}ekli, Ga\"el
Richard
- Abstract要約: 本稿ではベクトル量子化変分オートエンコーダ(VQ-VAE)の拡張に基づくワンショット音色変換法を提案する。
提案手法は,客観的な指標を用いて評価し,選択した基準線を上回り得ることを示す。
- 参考スコア(独自算出の注目度): 2.6381163133447836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural style transfer, allowing to apply the artistic style of one image to
another, has become one of the most widely showcased computer vision
applications shortly after its introduction. In contrast, related tasks in the
music audio domain remained, until recently, largely untackled. While several
style conversion methods tailored to musical signals have been proposed, most
lack the 'one-shot' capability of classical image style transfer algorithms. On
the other hand, the results of existing one-shot audio style transfer methods
on musical inputs are not as compelling. In this work, we are specifically
interested in the problem of one-shot timbre transfer. We present a novel
method for this task, based on an extension of the vector-quantized variational
autoencoder (VQ-VAE), along with a simple self-supervised learning strategy
designed to obtain disentangled representations of timbre and pitch. We
evaluate the method using a set of objective metrics and show that it is able
to outperform selected baselines.
- Abstract(参考訳): ある画像の芸術的スタイルを別の画像に適用できるニューラルスタイル転送は、その導入後すぐに最も広く披露されたコンピュータビジョンアプリケーションの一つとなった。
対照的に、音楽オーディオ領域の関連タスクは、最近まで、ほとんど無攻撃のままでした。
音楽信号に合わせたスタイル変換手法がいくつか提案されているが、その多くは古典的な画像スタイル転送アルゴリズムの「ワンショット」能力に欠けている。
一方、音楽入力における既存のワンショットオーディオスタイル転送方式の結果は、それほど説得力に欠ける。
この研究では、我々は特にワンショットの音色転送の問題に興味があります。
本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)の拡張と,音色とピッチの異なる表現を得るために設計された,単純な自己監視型学習戦略に基づく新しい手法を提案する。
本手法は客観的指標のセットを用いて評価し,選択したベースラインを上回ることができることを示す。
関連論文リスト
- Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。
我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。
本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-31T23:27:27Z) - Music Style Transfer With Diffusion Model [11.336043499372792]
本研究では,拡散モデル(DM)に基づく音楽スタイルの転送フレームワークを提案し,スペクトル法を用いてマルチ・マルチ・マルチ音楽スタイルの転送を実現する。
GuideDiff法は、スペクトルを高忠実度オーディオに復元し、音声生成速度を加速し、生成されたオーディオのノイズを低減するために用いられる。
論文 参考訳(メタデータ) (2024-04-23T06:22:19Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - StyTr^2: Unbiased Image Style Transfer with Transformers [59.34108877969477]
イメージスタイル転送の目的は、オリジナルコンテンツを維持しながら、スタイル参照によってガイドされた芸術的特徴を持つ画像をレンダリングすることである。
従来のニューラルスタイルの転送法は通常バイアスを受けており、コンテントリークは、同じ参照画像でスタイル転送プロセスの何回かの実行によって観察することができる。
我々は、この重要な問題に対処するために、トランスフォーマーベースのアプローチ、すなわちStyTr2を提案する。
論文 参考訳(メタデータ) (2021-05-30T15:57:09Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre
Transfer [34.02807083910344]
音声信号の時間周波数表現に「画像」ドメインスタイルの転送を適用した音色伝達手法であるTimbreTronを紹介する。
定Q変換表現は、畳み込みアーキテクチャに特に適していることを示す。
論文 参考訳(メタデータ) (2018-11-22T17:46:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。