論文の概要: wav2shape: Hearing the Shape of a Drum Machine
- arxiv url: http://arxiv.org/abs/2007.10299v1
- Date: Mon, 20 Jul 2020 17:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 14:50:43.118456
- Title: wav2shape: Hearing the Shape of a Drum Machine
- Title(参考訳): wav2shape:ドラムマシンの形状を聴く
- Authors: Han Han and Vincent Lostanlen
- Abstract要約: 波形からの物理的特性の分離と復元は、音声信号処理において難しい逆問題である。
本稿では,時間周波数解析と教師あり機械学習を組み合わせることでこの問題に対処することを提案する。
- 参考スコア(独自算出の注目度): 4.283530753133897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Disentangling and recovering physical attributes, such as shape and material,
from a few waveform examples is a challenging inverse problem in audio signal
processing, with numerous applications in musical acoustics as well as
structural engineering. We propose to address this problem via a combination of
time--frequency analysis and supervised machine learning. We start by
synthesizing a dataset of sounds using the functional transformation method.
Then, we represent each percussive sound in terms of its time-invariant
scattering transform coefficients and formulate the parametric estimation of
the resonator as multidimensional regression with a deep convolutional neural
network. We interpolate scattering coefficients over the surface of the drum as
a surrogate for potentially missing data, and study the response of the neural
network to interpolated samples. Lastly, we resynthesize drum sounds from
scattering coefficients, therefore paving the way towards a deep generative
model of drum sounds whose latent variables are physically interpretable.
- Abstract(参考訳): いくつかの波形の例から、形状や素材などの物理的属性を分離して復元することは、オーディオ信号処理において難しい逆問題であり、音楽音響や構造工学にも多くの応用がある。
本稿では,時間周波数解析と教師あり機械学習を組み合わせることでこの問題に対処することを提案する。
まず,関数変換法を用いて音のデータセットを合成する。
そして,その時間不変な散乱変換係数を用いて各パーカッシブ音を表現し,共振器のパラメトリック推定を深部畳み込みニューラルネットワークによる多次元回帰として定式化する。
我々は,ドラムの表面上の散乱係数を潜在的に欠落するデータに対する代理として補間し,補間標本に対するニューラルネットワークの応答について検討した。
最後に,散乱係数からドラム音を合成することで,潜在変数が物理的に解釈可能なドラム音の深い生成モデルへの道を開く。
関連論文リスト
- Conditional score-based diffusion models for solving inverse problems in mechanics [6.319616423658121]
条件付きスコアベース拡散モデルを用いてベイズ推定を行う枠組みを提案する。
条件付きスコアベース拡散モデルは条件分布のスコア関数を近似する生成モデルである。
メカニクスにおける高次元逆問題に対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2024-06-19T02:09:15Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - An investigation of the reconstruction capacity of stacked convolutional
autoencoders for log-mel-spectrograms [2.3204178451683264]
音声処理アプリケーションでは、ハイレベルな表現に基づく表現力のある音声の生成は、高い需要を示す。
ニューラルネットワークのような現代のアルゴリズムは、楽器の圧縮に基づく表現型シンセサイザーの開発にインスピレーションを与えている。
本研究では,多種多様な楽器に対する時間周波数音声表現の圧縮のための畳み込み畳み込みオートエンコーダについて検討した。
論文 参考訳(メタデータ) (2023-01-18T17:19:04Z) - Deep learning for full-field ultrasonic characterization [7.120879473925905]
本研究では、最近の機械学習の進歩を活用して、物理に基づくデータ分析プラットフォームを構築する。
直接反転と物理インフォームドニューラルネットワーク(PINN)の2つの論理について検討した。
論文 参考訳(メタデータ) (2023-01-06T05:01:05Z) - Multimodal Exponentially Modified Gaussian Oscillators [4.233733499457509]
本研究では,任意振動項を持つ3段階多モード指数修正ガウスモデルを提案する。
これにより、人工物に苦しむ合成超音波信号を完全に回収することができる。
得られた特徴の分類能力を示すために実データ実験を行った。
論文 参考訳(メタデータ) (2022-09-25T11:48:09Z) - A deep learning driven pseudospectral PCE based FFT homogenization
algorithm for complex microstructures [68.8204255655161]
提案手法は,従来の手法よりも高速に評価できる一方で,興味の中心モーメントを予測できることを示す。
提案手法は,従来の手法よりも高速に評価できると同時に,興味の中心モーメントを予測できることを示す。
論文 参考訳(メタデータ) (2021-10-26T07:02:14Z) - WaveTransform: Crafting Adversarial Examples via Input Decomposition [69.01794414018603]
本稿では,低周波サブバンドと高周波サブバンドに対応する逆雑音を生成するWaveTransformを紹介する。
実験により,提案攻撃は防衛アルゴリズムに対して有効であり,CNN間での転送も可能であることが示された。
論文 参考訳(メタデータ) (2020-10-29T17:16:59Z) - HpRNet : Incorporating Residual Noise Modeling for Violin in a
Variational Parametric Synthesizer [11.4219428942199]
そこで我々は,高音域の演奏スタイルにおいて,弓音が不可欠な部分であるカルナティック・ヴァイオリン記録のデータセットを提案する。
信号の高調波成分と残差成分、およびそれらの相互依存性についての知見を得る。
論文 参考訳(メタデータ) (2020-08-19T12:48:32Z) - Neural Granular Sound Synthesis [53.828476137089325]
グラニュラー音声合成は、小さな波形ウィンドウの並べ替え配列に基づく一般的な音声生成技術である。
生成ニューラルネットワークは、その欠点の大部分を緩和しつつ、粒状合成を実現することができることを示す。
論文 参考訳(メタデータ) (2020-08-04T08:08:00Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。