論文の概要: Mesostructures: Beyond Spectrogram Loss in Differentiable Time-Frequency
Analysis
- arxiv url: http://arxiv.org/abs/2301.10183v1
- Date: Tue, 24 Jan 2023 17:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 12:48:46.449789
- Title: Mesostructures: Beyond Spectrogram Loss in Differentiable Time-Frequency
Analysis
- Title(参考訳): メソ構造:異なる時間周波数解析におけるスペクトル損失を超えて
- Authors: Cyrus Vahidi, Han Han, Changhong Wang, Mathieu Lagrange, Gy\"orgy
Fazekas and Vincent Lostanlen
- Abstract要約: 我々は、微分可能なアルペジゲータと時間周波数散乱の合成を用いて、メソ構造音響モデリングの問題を定式化し、解決する。
我々は、局所スペクトルと分光時間変調の両方のレベルで類似性の時間不変かつマルチスケールの微分可能な時間周波数モデルの必要性を動機付けている。
- 参考スコア(独自算出の注目度): 7.024591201937813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer musicians refer to mesostructures as the intermediate levels of
articulation between the microstructure of waveshapes and the macrostructure of
musical forms. Examples of mesostructures include melody, arpeggios,
syncopation, polyphonic grouping, and textural contrast. Despite their central
role in musical expression, they have received limited attention in deep
learning. Currently, autoencoders and neural audio synthesizers are only
trained and evaluated at the scale of microstructure: i.e., local amplitude
variations up to 100 milliseconds or so. In this paper, we formulate and
address the problem of mesostructural audio modeling via a composition of a
differentiable arpeggiator and time-frequency scattering. We empirically
demonstrate that time--frequency scattering serves as a differentiable model of
similarity between synthesis parameters that govern mesostructure. By exposing
the sensitivity of short-time spectral distances to time alignment, we motivate
the need for a time-invariant and multiscale differentiable time--frequency
model of similarity at the level of both local spectra and spectrotemporal
modulations.
- Abstract(参考訳): コンピュータミュージシャンはメソ構造を、波型の微細構造と音楽形式のマクロ構造の間の調音の中間レベルと呼ぶ。
メソ構造にはメロディ、アルペジオ、シンコペーション、ポリフォニック・グループ化、テクスチャコントラストなどがある。
音楽表現における中心的役割にもかかわらず、深層学習では限られた注目を集めている。
現在、オートエンコーダとニューラルオーディオシンセサイザーは、微小構造のスケールでのみ訓練され、評価されている。
本稿では、微分可能なアルペジエータと時間周波数散乱によるメソ構造音響モデリングの問題を定式化し、解決する。
時間周波数散乱がメソ構造を管理する合成パラメータ間の類似性の微分可能なモデルであることを示す。
短時間のスペクトル距離の感度を時間アライメントに暴露することにより、局所スペクトルとスペクトル時間変調の両方のレベルでの類似性の時間不変かつ多スケールの微分可能時間周波数モデルの必要性を動機付ける。
関連論文リスト
- WalkTheDog: Cross-Morphology Motion Alignment via Phase Manifolds [23.884105024013714]
本稿では,動きデータセットの周期構造と意味を理解するための新しいアプローチを提案する。
我々は,人間や犬などの複数の文字に対する共有位相多様体を,何の監督も受けずに学習する。
改良された動きマッチングフレームワークと組み合わせて、いくつかのアプリケーションにおいて、時間と意味のアライメントの多様体の能力を実証する。
論文 参考訳(メタデータ) (2024-07-11T09:31:05Z) - Time Series Diffusion in the Frequency Domain [54.60573052311487]
周波数領域における時系列表現がスコアベース拡散モデルに有用な帰納バイアスであるか否かを解析する。
重要なニュアンスを持つ周波数領域において、二重拡散過程が生じることを示す。
周波数領域に拡散モデルを実装するために,デノナイジングスコアマッチング手法を適用する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T18:59:05Z) - Neural Structure Learning with Stochastic Differential Equations [9.076396370870423]
本稿では,ニューラルディファレンシャル方程式と変分推論を組み合わせた新しい構造学習手法SCOTCHを提案する。
この連続的なアプローチは、任意の時点における観測からの学習と予測の両方を自然に処理することができる。
論文 参考訳(メタデータ) (2023-11-06T17:58:47Z) - A magnetic clock for a harmonic oscillator [89.99666725996975]
我々は、量子力学が時計のみによってマクロ性に関連する条件が満たされるとき、古典的な振る舞いにどのように変換されるかを研究する。
この出現する行動の記述では、時間の概念や位相空間や軌道の古典的な概念が現れる。
論文 参考訳(メタデータ) (2023-10-20T09:55:51Z) - Scale Dependencies and Self-Similar Models with Wavelet Scattering
Spectra [1.5866079116942815]
複雑なウェーブレット変換は、各スケールで信号の変動を計算する。
スケール間の依存性は、ウェーブレット係数の時間とスケールのジョイント相関によって捉えられる。
このモーメントのベクトルは多スケールプロセスのガウス的でない幅広い性質を特徴付けることを示す。
論文 参考訳(メタデータ) (2022-04-19T22:31:13Z) - Optical computing of quantum revivals [0.0]
波面の崩壊・再生構造を示す分布に光をどのように構成するかを示す。
結果として生じる干渉は、複数の距離スケールで回折ピークの準周期構造を示す可能性がある。
論文 参考訳(メタデータ) (2022-04-02T18:00:18Z) - Dips in high-order harmonics spectra from a subcycle-driven two-level
system reflected in the negativity structure of the time-frequency Wigner
function [1.14219428942199]
強広帯域ハーフサイクルパルスと単一サイクルパルスで駆動される2レベルモデル系から放射される高次高調波スペクトルについて検討する。
強い駆動系からの放射に典型的な周波数スペクトルのプラトーは、同じ周波数の波の干渉によって振幅が顕著に変調され、異なるタイミングで放射される。
論文 参考訳(メタデータ) (2021-05-31T16:26:00Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。