論文の概要: TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre
Transfer
- arxiv url: http://arxiv.org/abs/1811.09620v3
- Date: Sun, 22 Oct 2023 04:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 07:33:03.666227
- Title: TimbreTron: A WaveNet(CycleGAN(CQT(Audio))) Pipeline for Musical Timbre
Transfer
- Title(参考訳): TimbreTron: 楽音伝達のためのWaveNet(CycleGAN(CQT(Audio))パイプライン
- Authors: Sicong Huang, Qiyang Li, Cem Anil, Xuchan Bao, Sageev Oore, Roger B.
Grosse
- Abstract要約: 音声信号の時間周波数表現に「画像」ドメインスタイルの転送を適用した音色伝達手法であるTimbreTronを紹介する。
定Q変換表現は、畳み込みアーキテクチャに特に適していることを示す。
- 参考スコア(独自算出の注目度): 34.02807083910344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the problem of musical timbre transfer, where the
goal is to manipulate the timbre of a sound sample from one instrument to match
another instrument while preserving other musical content, such as pitch,
rhythm, and loudness. In principle, one could apply image-based style transfer
techniques to a time-frequency representation of an audio signal, but this
depends on having a representation that allows independent manipulation of
timbre as well as high-quality waveform generation. We introduce TimbreTron, a
method for musical timbre transfer which applies "image" domain style transfer
to a time-frequency representation of the audio signal, and then produces a
high-quality waveform using a conditional WaveNet synthesizer. We show that the
Constant Q Transform (CQT) representation is particularly well-suited to
convolutional architectures due to its approximate pitch equivariance. Based on
human perceptual evaluations, we confirmed that TimbreTron recognizably
transferred the timbre while otherwise preserving the musical content, for both
monophonic and polyphonic samples.
- Abstract(参考訳): そこで本研究では,音色伝達の問題に対処し,音のサンプルの音色を1つの楽器から操作し,他の楽器とマッチングし,ピッチ,リズム,ラウドネスなどの他の音楽コンテンツを保存することを目的とする。
原則として、音声信号の時間周波数表現に画像ベースのスタイル転送技術を適用することができるが、これは音色を独立に操作できる表現と高品質な波形生成に依存する。
音声信号の時間周波数表現に「イメージ」ドメインの転送を適用し、条件付きウェーブネットシンセサイザーを用いて高品質な波形を生成する音楽音色変換法であるtimbretronを提案する。
定Q変換(CQT)表現は、その近似ピッチ同値性により畳み込みアーキテクチャに特に適していることを示す。
ヒトの知覚的評価に基づいて,TimbreTronは音色を認識可能に変換し,それ以外は音色を保存し,モノフォニックとポリフォニックの両方のサンプルで確認した。
関連論文リスト
- Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。
我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。
本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-31T23:27:27Z) - Real-time Timbre Remapping with Differentiable DSP [1.3803836644947054]
音色は様々な音楽的文脈における主要な表現様式である。
我々のアプローチは音色類似概念に基づいている。
ローランドTR-808をモデルとした音響スネアドラムから微分可能なシンセサイザーへのリアルタイムな音色リマッピングを実演する。
論文 参考訳(メタデータ) (2024-07-05T14:32:52Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Music Enhancement via Image Translation and Vocoding [14.356705444361832]
本稿では,低品質音楽録音の深層学習手法を提案する。
本稿では,メル-スペクトログラム表現における音声操作のイメージ・ツー・イメージ変換モデルと,合成したメル-スペクトログラムを知覚的に現実的な波形にマッピングする音楽ボコーディングモデルを組み合わせる。
メル-スペクトログラム逆変換の古典的手法と、ノイズ波形をクリーンな波形に直接マッピングするエンドツーエンドアプローチを用いて、この手法はベースラインよりも優れることがわかった。
論文 参考訳(メタデータ) (2022-04-28T05:00:07Z) - Self-Supervised VQ-VAE For One-Shot Music Style Transfer [2.6381163133447836]
本稿ではベクトル量子化変分オートエンコーダ(VQ-VAE)の拡張に基づくワンショット音色変換法を提案する。
提案手法は,客観的な指標を用いて評価し,選択した基準線を上回り得ることを示す。
論文 参考訳(メタデータ) (2021-02-10T21:42:49Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。