論文の概要: HyperGANStrument: Instrument Sound Synthesis and Editing with
Pitch-Invariant Hypernetworks
- arxiv url: http://arxiv.org/abs/2401.04558v1
- Date: Tue, 9 Jan 2024 13:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 15:34:21.438685
- Title: HyperGANStrument: Instrument Sound Synthesis and Editing with
Pitch-Invariant Hypernetworks
- Title(参考訳): HyperGANStrument:ピッチ不変ハイパーネットによる楽器音の合成と編集
- Authors: Zhe Zhang and Taketo Akama
- Abstract要約: 入力としてワンショット音を与えられた事前学習GANStrumentジェネレータの重みを変調するピッチ不変なハイパーネットワークを提案する。
その結果,提案モデルはGANStrumentの生成能力を向上するだけでなく,合成音の編集性を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 6.7367807716794585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GANStrument, exploiting GANs with a pitch-invariant feature extractor and
instance conditioning technique, has shown remarkable capabilities in
synthesizing realistic instrument sounds. To further improve the reconstruction
ability and pitch accuracy to enhance the editability of user-provided sound,
we propose HyperGANStrument, which introduces a pitch-invariant hypernetwork to
modulate the weights of a pre-trained GANStrument generator, given a one-shot
sound as input. The hypernetwork modulation provides feedback for the generator
in the reconstruction of the input sound. In addition, we take advantage of an
adversarial fine-tuning scheme for the hypernetwork to improve the
reconstruction fidelity and generation diversity of the generator. Experimental
results show that the proposed model not only enhances the generation
capability of GANStrument but also significantly improves the editability of
synthesized sounds. Audio examples are available at the online demo page.
- Abstract(参考訳): ganstrumentは、ピッチ不変特徴抽出器とインスタンスコンディショニング技術を用いてganを活用し、現実的な楽器音の合成に顕著な能力を示している。
本研究では,ユーザが提供する音の編集性を高めるために,事前学習したGANStrumentジェネレータの重みを入力として調整する,ピッチ不変なハイパーネットを導入したHyperGANStrumentを提案する。
ハイパーネットワーク変調は、入力音の再構成における発電機へのフィードバックを提供する。
さらに, ハイパーネットワークの逆方向の微調整方式を利用して, 発電機の復元精度と生成多様性を向上させる。
実験結果から,提案モデルはGANStrumentの生成能力を向上するだけでなく,合成音の編集性を大幅に向上させることがわかった。
オーディオのサンプルはオンラインのデモページにある。
関連論文リスト
- Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study [52.91899050612153]
自動音声認識(ASR)のためのエンコーダとして再利用された事前訓練言語モデル(PLM)内のトランスフォーマー
本研究は,事前学習したLMのトランスフォーマーを組み込んだASRタスクにおいて,文字誤り率 (CER) とワード誤り率 (WER) の顕著な改善が認められた。
このことは、事前訓練されたトランスフォーマーに埋め込まれたセマンティックな技術を活用して、ASRシステムの能力を向上させる可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-26T11:31:18Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - Conditional variational autoencoder to improve neural audio synthesis
for polyphonic music sound [4.002298833349517]
高品質な音声波形合成のためのリアルタイムオーディオ変分オートエンコーダ (RAVE) 法を開発した。
本研究では,条件付き変分オートエンコーダ構造と完全連結層を付加した拡張RAVEモデルを提案する。
提案モデルでは従来のRAVEモデルよりも性能と安定性が向上した。
論文 参考訳(メタデータ) (2022-11-16T07:11:56Z) - GANStrument: Adversarial Instrument Sound Synthesis with Pitch-invariant
Instance Conditioning [0.2578242050187029]
GANStrumentは、楽器音合成のための生成的対向モデルである。
GANStrumentは、インスタンスコンディショニングを利用して、合成音の忠実度と多様性を向上する。
論文 参考訳(メタデータ) (2022-11-10T07:24:09Z) - Period VITS: Variational Inference with Explicit Pitch Modeling for
End-to-end Emotional Speech Synthesis [19.422230767803246]
我々は,明示的な周期性生成を組み込んだ新しいエンドツーエンドテキスト音声合成モデルである Period VITS を提案する。
提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。
これらの特徴から、提案した周期性発生器は、波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波源を生成する。
論文 参考訳(メタデータ) (2022-10-28T07:52:30Z) - Zero-Shot Logit Adjustment [89.68803484284408]
Generalized Zero-Shot Learning (GZSL) は意味記述に基づく学習技術である。
本稿では,分類器の改良を無視しつつ,ジェネレータの効果を高める新しい世代ベース手法を提案する。
実験により,提案手法が基本生成器と組み合わせた場合の最先端化を実現し,様々なゼロショット学習フレームワークを改良できることが実証された。
論文 参考訳(メタデータ) (2022-04-25T17:54:55Z) - Speech Enhancement with Score-Based Generative Models in the Complex
STFT Domain [18.090665052145653]
複素数値深層ニューラルネットワークを用いた音声強調のための新しい訓練課題を提案する。
微分方程式の定式化の中でこのトレーニングタスクを導出することにより、予測子-相関子標本化が可能となる。
論文 参考訳(メタデータ) (2022-03-31T12:53:47Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。