論文の概要: Mesostructures: Beyond Spectrogram Loss in Differentiable Time-Frequency
Analysis
- arxiv url: http://arxiv.org/abs/2301.10183v1
- Date: Tue, 24 Jan 2023 17:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 12:48:46.449789
- Title: Mesostructures: Beyond Spectrogram Loss in Differentiable Time-Frequency
Analysis
- Title(参考訳): メソ構造:異なる時間周波数解析におけるスペクトル損失を超えて
- Authors: Cyrus Vahidi, Han Han, Changhong Wang, Mathieu Lagrange, Gy\"orgy
Fazekas and Vincent Lostanlen
- Abstract要約: 我々は、微分可能なアルペジゲータと時間周波数散乱の合成を用いて、メソ構造音響モデリングの問題を定式化し、解決する。
我々は、局所スペクトルと分光時間変調の両方のレベルで類似性の時間不変かつマルチスケールの微分可能な時間周波数モデルの必要性を動機付けている。
- 参考スコア(独自算出の注目度): 7.024591201937813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer musicians refer to mesostructures as the intermediate levels of
articulation between the microstructure of waveshapes and the macrostructure of
musical forms. Examples of mesostructures include melody, arpeggios,
syncopation, polyphonic grouping, and textural contrast. Despite their central
role in musical expression, they have received limited attention in deep
learning. Currently, autoencoders and neural audio synthesizers are only
trained and evaluated at the scale of microstructure: i.e., local amplitude
variations up to 100 milliseconds or so. In this paper, we formulate and
address the problem of mesostructural audio modeling via a composition of a
differentiable arpeggiator and time-frequency scattering. We empirically
demonstrate that time--frequency scattering serves as a differentiable model of
similarity between synthesis parameters that govern mesostructure. By exposing
the sensitivity of short-time spectral distances to time alignment, we motivate
the need for a time-invariant and multiscale differentiable time--frequency
model of similarity at the level of both local spectra and spectrotemporal
modulations.
- Abstract(参考訳): コンピュータミュージシャンはメソ構造を、波型の微細構造と音楽形式のマクロ構造の間の調音の中間レベルと呼ぶ。
メソ構造にはメロディ、アルペジオ、シンコペーション、ポリフォニック・グループ化、テクスチャコントラストなどがある。
音楽表現における中心的役割にもかかわらず、深層学習では限られた注目を集めている。
現在、オートエンコーダとニューラルオーディオシンセサイザーは、微小構造のスケールでのみ訓練され、評価されている。
本稿では、微分可能なアルペジエータと時間周波数散乱によるメソ構造音響モデリングの問題を定式化し、解決する。
時間周波数散乱がメソ構造を管理する合成パラメータ間の類似性の微分可能なモデルであることを示す。
短時間のスペクトル距離の感度を時間アライメントに暴露することにより、局所スペクトルとスペクトル時間変調の両方のレベルでの類似性の時間不変かつ多スケールの微分可能時間周波数モデルの必要性を動機付ける。
関連論文リスト
- Differentiable Time-Frequency Scattering in Kymatio [6.62937553460251]
本稿では,分散変換のためのPythonパッケージであるKymatioにおける時間周波数散乱の実装について述べる。
提案手法は, 分光時間変調の教師なし多様体学習, 楽器の教師付き分類, 生体音響音のテクスチャ再生の3つの応用を通して, キモティオにおけるJTFSの有用性を示す。
論文 参考訳(メタデータ) (2022-04-18T12:02:08Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - A deep learning driven pseudospectral PCE based FFT homogenization
algorithm for complex microstructures [68.8204255655161]
提案手法は,従来の手法よりも高速に評価できる一方で,興味の中心モーメントを予測できることを示す。
提案手法は,従来の手法よりも高速に評価できると同時に,興味の中心モーメントを予測できることを示す。
論文 参考訳(メタデータ) (2021-10-26T07:02:14Z) - Structure-Aware Audio-to-Score Alignment using Progressively Dilated
Convolutional Neural Networks [8.669338893753885]
音楽演奏と楽譜の間の構造的差異の同定は、音声とスコアのアライメントにおいて難しいが不可欠なステップである。
本稿では、進化的に拡張された畳み込みニューラルネットワークを用いて、そのような違いを検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T05:14:58Z) - Bayesian Reconstruction of Fourier Pairs [21.104218472462907]
一般的な文献は、観測結果の欠如や、ノイズの破損したデータには耐えられない。
我々の目的は、時間領域と周波数領域において、不特定に取得されたデータの原則的処理の欠如に対処することである。
提案モデルでは,実環境におけるオーディオ,医療,天文学的信号の共用時間と周波数再構成が可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T17:30:24Z) - Time-Frequency Scattering Accurately Models Auditory Similarities
Between Instrumental Playing Techniques [5.923588533979649]
音色知覚は楽器や演奏技術だけで提供されるものよりも柔軟な分類法で機能することを示す。
本稿では,楽器,ミュート,技法間の類似性のクラスタグラフを復元するマシンリスニングモデルを提案する。
論文 参考訳(メタデータ) (2020-07-21T16:37:15Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - VaPar Synth -- A Variational Parametric Model for Audio Synthesis [78.3405844354125]
本稿では,条件付き変分オートエンコーダ(CVAE)を用いた変分パラメトリックシンセサイザVaPar Synthを提案する。
提案するモデルの性能は,ピッチを柔軟に制御した楽器音の再構成と生成によって実証する。
論文 参考訳(メタデータ) (2020-03-30T16:05:47Z) - Multi-Time-Scale Convolution for Emotion Recognition from Speech Audio
Signals [7.219077740523682]
本稿では,音声データを解析する際の時間変動に対する柔軟性を実現するため,マルチタイムスケール(MTS)手法を提案する。
MTSと標準畳み込み層を,異なる大きさの4つのデータセットを用いて,音声からの感情認識のための異なるアーキテクチャで評価した。
論文 参考訳(メタデータ) (2020-03-06T12:28:04Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。