論文の概要: Time-Frequency Scattering Accurately Models Auditory Similarities
Between Instrumental Playing Techniques
- arxiv url: http://arxiv.org/abs/2007.10926v2
- Date: Tue, 10 Nov 2020 17:36:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 05:55:52.261868
- Title: Time-Frequency Scattering Accurately Models Auditory Similarities
Between Instrumental Playing Techniques
- Title(参考訳): 時間周波数散乱による楽器演奏の音響的類似性
- Authors: Vincent Lostanlen, Christian El-Hajj, Mathias Rossignol, Gr\'egoire
Lafay, Joakim And\'en and Mathieu Lagrange
- Abstract要約: 音色知覚は楽器や演奏技術だけで提供されるものよりも柔軟な分類法で機能することを示す。
本稿では,楽器,ミュート,技法間の類似性のクラスタグラフを復元するマシンリスニングモデルを提案する。
- 参考スコア(独自算出の注目度): 5.923588533979649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instrumental playing techniques such as vibratos, glissandos, and trills
often denote musical expressivity, both in classical and folk contexts.
However, most existing approaches to music similarity retrieval fail to
describe timbre beyond the so-called "ordinary" technique, use instrument
identity as a proxy for timbre quality, and do not allow for customization to
the perceptual idiosyncrasies of a new subject. In this article, we ask 31
human subjects to organize 78 isolated notes into a set of timbre clusters.
Analyzing their responses suggests that timbre perception operates within a
more flexible taxonomy than those provided by instruments or playing techniques
alone. In addition, we propose a machine listening model to recover the cluster
graph of auditory similarities across instruments, mutes, and techniques. Our
model relies on joint time--frequency scattering features to extract
spectrotemporal modulations as acoustic features. Furthermore, it minimizes
triplet loss in the cluster graph by means of the large-margin nearest neighbor
(LMNN) metric learning algorithm. Over a dataset of 9346 isolated notes, we
report a state-of-the-art average precision at rank five (AP@5) of
$99.0\%\pm1$. An ablation study demonstrates that removing either the joint
time--frequency scattering transform or the metric learning algorithm
noticeably degrades performance.
- Abstract(参考訳): ヴィブラート、グリッサンドス、トリルといった楽器演奏技法は、古典的・民謡的な文脈において、しばしば音楽の表現力を表す。
しかし、既存の音楽類似性検索のアプローチのほとんどは、いわゆる「順序」技法を超えて音色を記述できず、音色品質の代理として楽器のアイデンティティを使用し、新しい主題の知覚的慣用性へのカスタマイズを許さない。
本稿では,31名の被験者に対して,78個の孤立音符を音色クラスタに整理するように依頼する。
彼らの反応を分析すると、音色知覚は楽器や演奏技術だけで提供されるものよりも柔軟な分類の範囲内で動作することが示唆される。
また, 楽器, ミュート, 技法間の聴覚類似度のクラスターグラフを復元する機械聴力モデルを提案する。
我々のモデルは、音響特性として分光時間変調を抽出するために、結合時間周波数散乱特性に依存している。
さらに, クラスタグラフの3重項損失を, 隣り合う大行列(LMNN)距離学習アルゴリズムを用いて最小化する。
9346の孤立したノートのデータセット上で、最先端の平均精度をランク5(AP@5)99.0\%\pm1$で報告する。
アブレーション研究では、結合時間周波数散乱変換またはメートル法学習アルゴリズムが顕著に性能を劣化させることを示した。
関連論文リスト
- Why Perturbing Symbolic Music is Necessary: Fitting the Distribution of Never-used Notes through a Joint Probabilistic Diffusion Model [6.085444830169205]
既存の音楽生成モデルは大部分が言語ベースであり、音符の周波数連続性を無視する。
本稿では,音符と意味情報の連成分布に適合し,記号的な音楽条件を生成する音楽ディフアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-08-04T07:38:38Z) - Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models [2.3749120526936465]
サンプルベース楽器の自動生成のためのニューラルオーディオ言語モデルを提案する。
提案手法は,88キーのスペクトル,速度,テキスト/オーディオの埋め込みを併用した音声合成フレームワークを拡張した。
論文 参考訳(メタデータ) (2024-07-22T13:59:58Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Synthia's Melody: A Benchmark Framework for Unsupervised Domain
Adaptation in Audio [4.537310370334197]
無限の4秒のメロディをシミュレートできる新しい音声データ生成フレームワークであるSynthiaのメロディを提示する。
観測条件下で収集された既存のデータセットとは異なり、シンシアのメロディには観測されていないバイアスがない。
評価の結果,Synthia のメロディは,これらのモデルの様々な分布シフトに対する感受性を検証するための頑健なテストベッドを提供することがわかった。
論文 参考訳(メタデータ) (2023-09-26T15:46:06Z) - Self-supervised Auxiliary Loss for Metric Learning in Music
Similarity-based Retrieval and Auto-tagging [0.0]
類似性に基づく検索課題に対処するために,自己教師付き学習アプローチに基づくモデルを提案する。
また, 微調整期間中の増員を控えることで, 良好な結果が得られた。
論文 参考訳(メタデータ) (2023-04-15T02:00:28Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Anomaly Transformer: Time Series Anomaly Detection with Association
Discrepancy [68.86835407617778]
Anomaly Transformerは、6つの教師なし時系列異常検出ベンチマークで最先端のパフォーマンスを達成する。
Anomaly Transformerは、6つの教師なし時系列異常検出ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-10-06T10:33:55Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z) - Visual Attention for Musical Instrument Recognition [72.05116221011949]
本研究では,楽器認識の性能向上を図るため,音節時間感覚における注意機構,すなわち視覚的注意(la visual attention)の活用について検討する。
第1のアプローチは,各音節時間インスタンスに基づく予測をアグリゲーション前に注意重み付けし,最終的な予測を生成するスライディング・ウインドウ・パラダイムに注意機構を適用した。
第2のアプローチは、ネットワークがスペクトログラムの一部にのみ参加し、限られた回数の視覚的注意を前提として、次にどこに出席するかを決定する、反復的な視覚的注意モデルに基づいている。
論文 参考訳(メタデータ) (2020-06-17T03:56:44Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。