論文の概要: GANStrument: Adversarial Instrument Sound Synthesis with Pitch-invariant
Instance Conditioning
- arxiv url: http://arxiv.org/abs/2211.05385v1
- Date: Thu, 10 Nov 2022 07:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 16:24:16.253250
- Title: GANStrument: Adversarial Instrument Sound Synthesis with Pitch-invariant
Instance Conditioning
- Title(参考訳): GANStrument:ピッチ不変インスタンス条件付き逆計器音合成
- Authors: Gaku Narita, Junichi Shimizu, Taketo Akama
- Abstract要約: GANStrumentは、楽器音合成のための生成的対向モデルである。
GANStrumentは、インスタンスコンディショニングを利用して、合成音の忠実度と多様性を向上する。
- 参考スコア(独自算出の注目度): 0.2578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose GANStrument, a generative adversarial model for instrument sound
synthesis. Given a one-shot sound as input, it is able to generate pitched
instrument sounds that reflect the timbre of the input within an interactive
time. By exploiting instance conditioning, GANStrument achieves better fidelity
and diversity of synthesized sounds and generalization ability to various
inputs. In addition, we introduce an adversarial training scheme for a
pitch-invariant feature extractor that significantly improves the pitch
accuracy and timbre consistency. Experimental results show that GANStrument
outperforms strong baselines that do not use instance conditioning in terms of
generation quality and input editability. Qualitative examples are available
online.
- Abstract(参考訳): 楽器音合成のための生成逆モデルであるGANStrumentを提案する。
入力としてワンショット音が与えられると、対話的な時間内に入力の音色を反映するピッチ楽器音を生成することができる。
インスタンスコンディショニングを利用して、ganstrumentは合成音の忠実性と多様性、および様々な入力に対する一般化能力を達成する。
さらに,ピッチの精度と音色一貫性を著しく向上させるピッチ不変特徴抽出器の逆訓練方式を提案する。
GANStrumentは、生成品質と入力編集性の観点から、インスタンスコンディショニングを使用しない強いベースラインよりも優れていることを示す実験結果を得た。
定性的な例はオンラインで公開されている。
関連論文リスト
- Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models [2.3749120526936465]
サンプルベース楽器の自動生成のためのニューラルオーディオ言語モデルを提案する。
提案手法は,88キーのスペクトル,速度,テキスト/オーディオの埋め込みを併用した音声合成フレームワークを拡張した。
論文 参考訳(メタデータ) (2024-07-22T13:59:58Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - HyperGANStrument: Instrument Sound Synthesis and Editing with
Pitch-Invariant Hypernetworks [6.7367807716794585]
入力としてワンショット音を与えられた事前学習GANStrumentジェネレータの重みを変調するピッチ不変なハイパーネットワークを提案する。
その結果,提案モデルはGANStrumentの生成能力を向上するだけでなく,合成音の編集性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-01-09T13:54:32Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Period VITS: Variational Inference with Explicit Pitch Modeling for
End-to-end Emotional Speech Synthesis [19.422230767803246]
我々は,明示的な周期性生成を組み込んだ新しいエンドツーエンドテキスト音声合成モデルである Period VITS を提案する。
提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。
これらの特徴から、提案した周期性発生器は、波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波源を生成する。
論文 参考訳(メタデータ) (2022-10-28T07:52:30Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。