論文の概要: Hierarchical Timbre-Painting and Articulation Generation
- arxiv url: http://arxiv.org/abs/2008.13095v2
- Date: Mon, 7 Sep 2020 14:49:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 12:36:13.592022
- Title: Hierarchical Timbre-Painting and Articulation Generation
- Title(参考訳): 階層的音色塗装と調音生成
- Authors: Michael Michelashvili and Lior Wolf
- Abstract要約: 本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
- 参考スコア(独自算出の注目度): 92.59388372914265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a fast and high-fidelity method for music generation, based on
specified f0 and loudness, such that the synthesized audio mimics the timbre
and articulation of a target instrument. The generation process consists of
learned source-filtering networks, which reconstruct the signal at increasing
resolutions. The model optimizes a multi-resolution spectral loss as the
reconstruction loss, an adversarial loss to make the audio sound more
realistic, and a perceptual f0 loss to align the output to the desired input
pitch contour. The proposed architecture enables high-quality fitting of an
instrument, given a sample that can be as short as a few minutes, and the
method demonstrates state-of-the-art timbre transfer capabilities. Code and
audio samples are shared at https://github.com/mosheman5/timbre_painting.
- Abstract(参考訳): 本稿では,特定のf0とラウドネスに基づいて,ターゲット楽器の音色と調音を模倣する高速で高精度な音楽生成法を提案する。
生成プロセスは、高分解能で信号を再構成する学習ソースフィルタリングネットワークで構成される。
モデルは、再構成損失としてマルチレゾリューションスペクトル損失を最適化し、オーディオをよりリアルにするための逆損失と、所望の入力ピッチ輪郭に合わせて出力を調整する知覚的f0損失を最適化する。
提案アーキテクチャでは,数分の短いサンプルを与えられた楽器の高品質な装着が可能であり,その手法は最先端の音色伝達能力を実証する。
コードとオーディオのサンプルはhttps://github.com/mosheman5/timbre_paintingで共有される。
関連論文リスト
- From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Timbre Transfer with Variational Auto Encoding and Cycle-Consistent
Adversarial Networks [0.6445605125467573]
本研究は,音源音の音色を目標音の音色に変換し,音質の低下を最小限に抑えた深層学習の音色伝達への適用について検討する。
この手法は、変分オートエンコーダとジェネレーティブ・アドバイサル・ネットワークを組み合わせて、音源の有意義な表現を構築し、ターゲット音声の現実的な世代を生成する。
論文 参考訳(メタデータ) (2021-09-05T15:06:53Z) - Audio Spectral Enhancement: Leveraging Autoencoders for Low Latency
Reconstruction of Long, Lossy Audio Sequences [0.0]
本稿では,低品質MP3音声波の長いシーケンスから高周波数を再構成するための新しい手法を提案する。
本アーキテクチャは,スキップ接続による音声波のスペクトル構造を保ちながら,いくつかのボトルネックを生じさせる。
差分量子化手法を用いて初期モデルのサイズを半減し、同時に推論時間を短縮する方法を示す。
論文 参考訳(メタデータ) (2021-08-08T18:06:21Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。