論文の概要: Real-time Percussive Technique Recognition and Embedding Learning for
the Acoustic Guitar
- arxiv url: http://arxiv.org/abs/2307.07426v1
- Date: Thu, 13 Jul 2023 10:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 13:22:22.887002
- Title: Real-time Percussive Technique Recognition and Embedding Learning for
the Acoustic Guitar
- Title(参考訳): 音響ギターにおける実時間パーカッシブ技術認識と埋め込み学習
- Authors: Andrea Martelloni, Andrew P McPherson, Mathieu Barthet
- Abstract要約: リアルタイム音楽情報検索(RT-MIR)は,従来の音響機器の能力を高める可能性が大きい。
本研究では,アコースティックギターとギターボディのパーカッションをブレンドしたパーカッシブフィンガースタイルの強化を目的としたRT-MIR技術を開発した。
本稿では,畳み込みニューラルネットワーク(CNN)と変分オートエンコーダ(VAE)に基づくリアルタイムギターボディパーカッション認識と埋め込み学習技術について述べる。
- 参考スコア(独自算出の注目度): 2.5291326778025143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time music information retrieval (RT-MIR) has much potential to augment
the capabilities of traditional acoustic instruments. We develop RT-MIR
techniques aimed at augmenting percussive fingerstyle, which blends acoustic
guitar playing with guitar body percussion. We formulate several design
objectives for RT-MIR systems for augmented instrument performance: (i) causal
constraint, (ii) perceptually negligible action-to-sound latency, (iii) control
intimacy support, (iv) synthesis control support. We present and evaluate
real-time guitar body percussion recognition and embedding learning techniques
based on convolutional neural networks (CNNs) and CNNs jointly trained with
variational autoencoders (VAEs). We introduce a taxonomy of guitar body
percussion based on hand part and location. We follow a cross-dataset
evaluation approach by collecting three datasets labelled according to the
taxonomy. The embedding quality of the models is assessed using KL-Divergence
across distributions corresponding to different taxonomic classes. Results
indicate that the networks are strong classifiers especially in a simplified
2-class recognition task, and the VAEs yield improved class separation compared
to CNNs as evidenced by increased KL-Divergence across distributions. We argue
that the VAE embedding quality could support control intimacy and rich
interaction when the latent space's parameters are used to control an external
synthesis engine. Further design challenges around generalisation to different
datasets have been identified.
- Abstract(参考訳): リアルタイム音楽情報検索(RT-MIR)は,従来の音響機器の能力を高める可能性が大きい。
我々は,アコースティックギターとギターボディパーカッションをブレンドしたパーカッシブフィンガースタイル強化を目的としたrt-mir技術を開発した。
拡張楽器演奏のためのRT-MIRシステムの設計目的を定式化する。
(i)因果制約、
(ii)知覚的に無視可能な動作音遅延
(iii)親密性支援の取締り
(4)合成制御支援
本稿では,畳み込みニューラルネットワーク(CNN)とCNNを併用し,変動オートエンコーダ(VAE)を併用したリアルタイムギターボディパーカッション認識および埋め込み学習手法を提案する。
手の部分と位置に基づくギターボディパーカッションの分類について紹介する。
我々は,分類に従ってラベルづけされた3つのデータセットを収集し,データセット間評価手法に従う。
モデルの埋め込み品質は、異なる分類クラスに対応する分布にわたるKL-Divergenceを用いて評価される。
その結果, ネットワークは, 単純化された2クラス認識タスクにおいて強い分類器であることが示唆され, VAEは分布間のKL-Divergenceの増加によって証明されるように, CNNに比べてクラス分離が改善された。
VAEの埋め込み品質は、潜在空間のパラメータを用いて外部合成エンジンを制御する場合、制御親和性とリッチな相互作用を支援することができる。
異なるデータセットへの一般化に関するさらなる設計上の課題が特定されている。
関連論文リスト
- Self-supervised Learning for Acoustic Few-Shot Classification [10.180992026994739]
我々は、CNNに基づく前処理と状態空間モデル(SSM)に基づく特徴抽出を組み合わせた新しいアーキテクチャを導入、評価する。
実際のタスクデータに対するコントラスト学習と,それに続くラベル付きデータによる微調整を用いて,このアーキテクチャを事前学習する。
本評価は, 数発の分類問題において, 最先端のアーキテクチャよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-15T07:45:11Z) - On the Condition Monitoring of Bolted Joints through Acoustic Emission and Deep Transfer Learning: Generalization, Ordinal Loss and Super-Convergence [0.12289361708127876]
本稿では, 畳み込みニューラルネットワーク(CNN)を用いた深部伝達学習を用いて, 音響放射を用いたボルト付き関節のモニタリングを行う。
3本のボルトで接続された2本の細いビームからなる構造であるORION-AEベンチマークを用いて,本手法の性能評価を行った。
論文 参考訳(メタデータ) (2024-05-29T13:07:21Z) - Understanding learning from EEG data: Combining machine learning and
feature engineering based on hidden Markov models and mixed models [0.0]
前頭蓋振動は空間ナビゲーションや記憶において重要な役割を担っていると考えられている。
EEGデータセットは非常に複雑で、神経信号の変化を解釈しにくくする。
本稿では,脳波データから特徴を抽出するために隠れマルコフと線形混合効果モデルを提案する。
論文 参考訳(メタデータ) (2023-11-14T12:24:12Z) - Improved Zero-Shot Audio Tagging & Classification with Patchout
Spectrogram Transformers [7.817685358710508]
Zero-Shot(ZS)学習は、適応可能なクラス記述に基づいてクラスを予測することによって制約を克服する。
本研究では,ZS学習における自己注意型音声埋め込みアーキテクチャの有効性について検討する。
論文 参考訳(メタデータ) (2022-08-24T09:48:22Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Model-based Deep Learning Receiver Design for Rate-Splitting Multiple
Access [65.21117658030235]
本研究では,モデルベース深層学習(MBDL)に基づく実用的なRSMA受信機の設計を提案する。
MBDL受信機は、符号なしシンボル誤り率(SER)、リンクレベルシミュレーション(LLS)によるスループット性能、平均トレーニングオーバーヘッドの観点から評価される。
その結果,MBDLはCSIRが不完全なSIC受信機よりも優れていた。
論文 参考訳(メタデータ) (2022-05-02T12:23:55Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。