論文の概要: Audio inpainting with generative adversarial network
- arxiv url: http://arxiv.org/abs/2003.07704v1
- Date: Fri, 13 Mar 2020 09:17:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 01:30:59.191295
- Title: Audio inpainting with generative adversarial network
- Title(参考訳): 生成型adversarial networkを用いたオーディオインパインティング
- Authors: P. P. Ebner and A. Eltelt
- Abstract要約: We study the ability of Wasserstein Generative Adversarial Network (WGAN) to generate missing audio content。
我々は,WGANモデルを用いた長距離ギャップ(500ms)の音響塗装の課題に対処する。
我々は,近距離境界と長距離境界を用いた新しいWGANアーキテクチャにより,塗装部の品質を向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the ability of Wasserstein Generative Adversarial Network (WGAN) to
generate missing audio content which is, in context, (statistically similar) to
the sound and the neighboring borders. We deal with the challenge of audio
inpainting long range gaps (500 ms) using WGAN models. We improved the quality
of the inpainting part using a new proposed WGAN architecture that uses a
short-range and a long-range neighboring borders compared to the classical WGAN
model. The performance was compared with two different audio instruments (piano
and guitar) and on virtuoso pianists together with a string orchestra. The
objective difference grading (ODG) was used to evaluate the performance of both
architectures. The proposed model outperforms the classical WGAN model and
improves the reconstruction of high-frequency content. Further, we got better
results for instruments where the frequency spectrum is mainly in the lower
range where small noises are less annoying for human ear and the inpainting
part is more perceptible. Finally, we could show that better test results for
audio dataset were reached where a particular instrument is accompanist by
other instruments if we train the network only on this particular instrument
neglecting the other instruments.
- Abstract(参考訳): 本研究では,wassersteingenerative adversarial network (wgan) の音声コンテンツ生成能力について検討した。
我々は,WGANモデルを用いた長距離ギャップ(500ms)の音響塗装の課題に対処する。
我々は,従来のWGANモデルと比較して,短距離および長距離境界を用いた新しいWGANアーキテクチャを用いて,塗装部の品質を改善した。
この演奏は、2つの異なるオーディオ楽器(ピアノとギター)と、ヴィルトゥオーゾのピアニストと弦楽オーケストラと比較された。
客観差分級法(ODG)は両アーキテクチャの性能評価に用いられた。
提案モデルは,古典的なWGANモデルより優れ,高周波コンテンツの再構成を改善する。
さらに, 周波数スペクトルが主に低域にあり, 小さな雑音が人間の耳に悪さを伴わず, 塗布部がより知覚しやすい楽器に対して, より優れた結果を得た。
最後に、もしこの特定の楽器を無視するこの特定の楽器でのみネットワークを訓練すれば、特定の楽器が他の楽器と相性が良いオーディオデータセットのテスト結果に到達したことを示すことができる。
関連論文リスト
- Expressive Acoustic Guitar Sound Synthesis with an Instrument-Specific
Input Representation and Diffusion Outpainting [9.812666469580872]
楽器への入力表現をカスタマイズした音響ギター音響合成モデルを提案する。
本研究では,長期的整合性のある音声を生成する拡散型アウトペイントを用いて提案手法を実装した。
提案モデルはベースラインモデルよりも音質が高く,よりリアルな音色を生成する。
論文 参考訳(メタデータ) (2024-01-24T14:44:01Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Music Source Separation with Band-split RNN [25.578400006180527]
本稿では,周波数領域モデルを提案する。このモデルでは,混合物のスペクトルをサブバンドに分割し,インターリーブバンドレベルおよびシーケンスレベルのモデリングを行う。
サブバンドの帯域幅の選択は、対象源の特性に関する事前知識または専門知識によって決定できる。
実験の結果、BSRNNはMUSDB18-HQデータセットのみをトレーニングし、ミュージック・デミキシング(MDX)チャレンジ2021において、いくつかの上位モデルを上回った。
論文 参考訳(メタデータ) (2022-09-30T01:49:52Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - TONet: Tone-Octave Network for Singing Melody Extraction from Polyphonic
Music [43.17623332544677]
TONetは、トーンとオクターブの両方の知覚を改善するプラグアンドプレイモデルである。
本稿では,高調波を明示的にグループ化する改良された入力表現Tone-CFPを提案する。
第3に,最終的なサリエンス特徴写像を改善するために,トーンオクターブ融合機構を提案する。
論文 参考訳(メタデータ) (2022-02-02T10:55:48Z) - Conditional Sound Generation Using Neural Discrete Time-Frequency
Representation Learning [42.95813372611093]
本稿では,ニューラル離散時間周波数表現学習を用いて,音のクラスに調和した音を生成することを提案する。
これにより、長い範囲の依存関係をモデル化し、音クリップ内に局所的なきめ細かい構造を保持するという利点がある。
論文 参考訳(メタデータ) (2021-07-21T10:31:28Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。