論文の概要: CAESynth: Real-Time Timbre Interpolation and Pitch Control with
Conditional Autoencoders
- arxiv url: http://arxiv.org/abs/2111.05174v1
- Date: Tue, 9 Nov 2021 14:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 16:21:46.042220
- Title: CAESynth: Real-Time Timbre Interpolation and Pitch Control with
Conditional Autoencoders
- Title(参考訳): CAESynth:条件付きオートエンコーダによるリアルタイム音色補間とピッチ制御
- Authors: Aaron Valero Puche and Sukhan Lee
- Abstract要約: CAE Synthは、共用潜在特徴空間における参照音を補間することにより、音色をリアルタイムで合成する。
音節分類における精度に基づく条件付きオートエンコーダのトレーニングとピッチコンテンツの逆正則化により、潜時空間における音節分布をより効果的にすることができることを示す。
- 参考スコア(独自算出の注目度): 3.0991538386316666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a novel audio synthesizer, CAESynth, based on a
conditional autoencoder. CAESynth synthesizes timbre in real-time by
interpolating the reference sounds in their shared latent feature space, while
controlling a pitch independently. We show that training a conditional
autoencoder based on accuracy in timbre classification together with
adversarial regularization of pitch content allows timbre distribution in
latent space to be more effective and stable for timbre interpolation and pitch
conditioning. The proposed method is applicable not only to creation of musical
cues but also to exploration of audio affordance in mixed reality based on
novel timbre mixtures with environmental sounds. We demonstrate by experiments
that CAESynth achieves smooth and high-fidelity audio synthesis in real-time
through timbre interpolation and independent yet accurate pitch control for
musical cues as well as for audio affordance with environmental sound. A Python
implementation along with some generated samples are shared online.
- Abstract(参考訳): 本稿では,条件付きオートエンコーダに基づく新しい音声シンセサイザーであるcaesynthを提案する。
CAESynthは、ピッチを独立に制御しながら、共有潜在特徴空間の参照音を補間することにより、リアルタイムで音色を合成する。
音色分類の精度に基づく条件付きオートエンコーダの訓練と、ピッチ内容の逆正規化により、潜在空間における音色分布が、音色補間やピッチコンディショニングにおいてより効果的で安定になることを示す。
提案手法は,楽譜作成だけでなく,環境音と新しい音色を混合した混合現実における聴力の探索にも応用できる。
そこで我々は,CAESynthが音色補間と独立かつ正確なピッチ制御によって,環境音による音質・高忠実な音声合成を実現する実験を行った。
Pythonの実装と生成されたサンプルはオンラインで共有される。
関連論文リスト
- Wavetable Synthesis Using CVAE for Timbre Control Based on Semantic Label [2.0124254762298794]
本研究は,直感的かつ感受性の高い波形合成における音色制御手法を提案する。
条件付き変分オートエンコーダ(CVAE)を使用して、ユーザはウェーブテーブルを選択し、明るい、暖かい、リッチなラベルで音色を定義することができる。
論文 参考訳(メタデータ) (2024-10-24T10:37:54Z) - wav2pos: Sound Source Localization using Masked Autoencoders [12.306126455995603]
本稿では,分散アドホックマイクロホンアレイの3次元音源定位タスクに対して,それをセット・ツー・セット回帰問題として定式化し,新しい手法を提案する。
このような定式化は,入力に隠された座標を再構成することにより,音源の正確な位置決めを可能にすることを示す。
論文 参考訳(メタデータ) (2024-08-28T13:09:20Z) - Bass Accompaniment Generation via Latent Diffusion [0.0]
任意の長さのミキシングに付随する単一茎を生成する制御可能なシステムを提案する。
本手法のコアとなるのは、音声波形サンプルを効率よく非可逆な潜在表現に圧縮するオーディオオートエンコーダである。
制御可能な条件付きオーディオ生成フレームワークは、音楽制作においてミュージシャンを支援するための生成AIツールを作成する上で、大きな前進となる。
論文 参考訳(メタデータ) (2024-02-02T13:44:47Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Neural Waveshaping Synthesis [0.0]
ニューラルオーディオ合成に対する,新しい,軽量で完全な因果的アプローチを提案する。
ニューラルウェーブシェイピングユニット(NEWT)は、波形領域で直接動作する。
入力信号と出力信号の単純なアフィン変換によって複雑な鼓膜進化を生成する。
論文 参考訳(メタデータ) (2021-07-11T13:50:59Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。