論文の概要: Vector-Quantized Timbre Representation
- arxiv url: http://arxiv.org/abs/2007.06349v1
- Date: Mon, 13 Jul 2020 12:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:42:42.062575
- Title: Vector-Quantized Timbre Representation
- Title(参考訳): ベクトル量子化音色表現
- Authors: Adrien Bitton, Philippe Esling, Tatsuya Harada
- Abstract要約: 本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
- 参考スコア(独自算出の注目度): 53.828476137089325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Timbre is a set of perceptual attributes that identifies different types of
sound sources. Although its definition is usually elusive, it can be seen from
a signal processing viewpoint as all the spectral features that are perceived
independently from pitch and loudness. Some works have studied high-level
timbre synthesis by analyzing the feature relationships of different
instruments, but acoustic properties remain entangled and generation bound to
individual sounds. This paper targets a more flexible synthesis of an
individual timbre by learning an approximate decomposition of its spectral
properties with a set of generative features. We introduce an auto-encoder with
a discrete latent space that is disentangled from loudness in order to learn a
quantized representation of a given timbre distribution. Timbre transfer can be
performed by encoding any variable-length input signals into the quantized
latent features that are decoded according to the learned timbre. We detail
results for translating audio between orchestral instruments and singing voice,
as well as transfers from vocal imitations to instruments as an intuitive
modality to drive sound synthesis. Furthermore, we can map the discrete latent
space to acoustic descriptors and directly perform descriptor-based synthesis.
- Abstract(参考訳): Timbreは、異なるタイプの音源を識別する知覚特性のセットである。
その定義は通常は理解できないが、信号処理の観点からは、ピッチやラウドネスとは独立に知覚されるすべてのスペクトル特徴として見ることができる。
いくつかの研究は、異なる楽器の特徴的関係を分析して高レベルの音色合成を研究しているが、音響特性は絡み合い、個々の音に結びついている。
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
本稿では,与えられた音色分布の量子化表現を学習するために,ラウドネスから切り離された離散潜在空間を持つオートエンコーダを導入する。
音色変換は、任意の可変長入力信号を学習した音色に従って復号された量子化潜在特徴に符号化することで行うことができる。
本稿では,管弦楽楽器と歌唱音声の音声変換結果と,音声模倣から楽器への変換結果について,音声合成を促進するための直感的モダリティとして詳述する。
さらに、離散潜在空間を音響記述子にマッピングし、直接記述子に基づく合成を行う。
関連論文リスト
- Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。
異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文 参考訳(メタデータ) (2024-11-14T03:57:21Z) - Real-time Timbre Remapping with Differentiable DSP [1.3803836644947054]
音色は様々な音楽的文脈における主要な表現様式である。
我々のアプローチは音色類似概念に基づいている。
ローランドTR-808をモデルとした音響スネアドラムから微分可能なシンセサイザーへのリアルタイムな音色リマッピングを実演する。
論文 参考訳(メタデータ) (2024-07-05T14:32:52Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical
Modeling [6.256118777336895]
音楽表現は、どの音符が演奏され、どのように演奏されるかの両方を制御する必要がある。
楽器の階層モデルであるMIDI-DDSPを導入し,リアルなニューラルオーディオ合成と詳細なユーザ制御を実現する。
この階層は、高忠実度音声を再構成し、音符列のパフォーマンス特性を正確に予測し、与えられた音符列の属性を独立に操作し、また、完全なシステムとして、新しい音符列から現実的な音声を生成することを実証する。
論文 参考訳(メタデータ) (2021-12-17T04:15:42Z) - A Unified Model for Zero-shot Music Source Separation, Transcription and
Synthesis [13.263771543118994]
1)混合音源から個々の音源をテキスト化する,2)各音源をMIDI音符に書き起こす,3)分離音源の音色に基づいて新曲を合成する,という3つのタスクの統一モデルを提案する。
このモデルは、人間が音楽を聴くとき、私たちの心は異なる楽器の音を分離できるだけでなく、スコアや音色といったハイレベルな表現も認識できるという事実にインスピレーションを受けています。
論文 参考訳(メタデータ) (2021-08-07T14:28:21Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - HpRNet : Incorporating Residual Noise Modeling for Violin in a
Variational Parametric Synthesizer [11.4219428942199]
そこで我々は,高音域の演奏スタイルにおいて,弓音が不可欠な部分であるカルナティック・ヴァイオリン記録のデータセットを提案する。
信号の高調波成分と残差成分、およびそれらの相互依存性についての知見を得る。
論文 参考訳(メタデータ) (2020-08-19T12:48:32Z) - Neural Granular Sound Synthesis [53.828476137089325]
グラニュラー音声合成は、小さな波形ウィンドウの並べ替え配列に基づく一般的な音声生成技術である。
生成ニューラルネットワークは、その欠点の大部分を緩和しつつ、粒状合成を実現することができることを示す。
論文 参考訳(メタデータ) (2020-08-04T08:08:00Z) - Timbre latent space: exploration and creative aspects [1.3764085113103222]
近年の研究では、教師なしモデルがオートエンコーダを用いて可逆的な音声表現を学習できることが示されている。
生成ニューラルネットワークによって、音色操作の新たな可能性が実現されている。
論文 参考訳(メタデータ) (2020-08-04T07:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。