論文の概要: Exploring single-song autoencoding schemes for audio-based music
structure analysis
- arxiv url: http://arxiv.org/abs/2110.14437v1
- Date: Wed, 27 Oct 2021 13:48:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 18:13:01.241430
- Title: Exploring single-song autoencoding schemes for audio-based music
structure analysis
- Title(参考訳): 音声に基づく音楽構造解析のための単音自動符号化方式の検討
- Authors: Axel Marmoret, J\'er\'emy E. Cohen, Fr\'ed\'eric Bimbot
- Abstract要約: この研究は、低次元のオートエンコーダを訓練し、特定の歌に特有の潜在/圧縮表現を学習する「ピース固有」オートエンコード方式を探求する。
提案手法は,3秒耐性を有する教師付き最先端手法の性能レベルを実現する。
- 参考スコア(独自算出の注目度): 6.037383467521294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of deep neural networks to learn complex data relations and
representations is established nowadays, but it generally relies on large sets
of training data. This work explores a "piece-specific" autoencoding scheme, in
which a low-dimensional autoencoder is trained to learn a latent/compressed
representation specific to a given song, which can then be used to infer the
song structure. Such a model does not rely on supervision nor annotations,
which are well-known to be tedious to collect and often ambiguous in Music
Structure Analysis. We report that the proposed unsupervised auto-encoding
scheme achieves the level of performance of supervised state-of-the-art methods
with 3 seconds tolerance when using a Log Mel spectrogram representation on the
RWC-Pop dataset.
- Abstract(参考訳): 深層ニューラルネットワークが複雑なデータ関係や表現を学習する能力は近年確立されているが、一般的には大量のトレーニングデータに依存している。
この研究は、低次元のオートエンコーダを訓練して、特定の歌に特有の潜在/圧縮表現を学習し、歌の構造を推測する「ピース固有」自動エンコード方式を探求する。
このようなモデルは、音楽構造解析において収集が面倒でしばしば曖昧であることで知られる監督や注釈に依存しない。
提案手法は,rwc-popデータセット上のlog mel spectrogram表現を用いた場合,3秒許容で教師あり最先端手法の性能レベルを実現する。
関連論文リスト
- Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning
of Music Audio [10.946347283718923]
本稿では,プロトタイプ学習に基づく音楽音声分類のための解釈可能なモデルPECMAEを提案する。
我々のモデルは,オートエンコーダとプロトタイプネットワークを共同で学習する先行手法であるAPNetに基づいている。
プロトタイプベースのモデルはオートエンコーダの埋め込みによって達成された性能の大部分を保っていることがわかった。
論文 参考訳(メタデータ) (2024-02-14T17:13:36Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Learning Hierarchical Metrical Structure Beyond Measures [3.7294116330265394]
階層構造アノテーションは、音楽情報検索とコンピュータ音楽学に役立つ。
スコアから階層的メートル法構造を自動的に抽出するデータ駆動手法を提案する。
提案手法は,異なるオーケストレーション環境下でのルールベースアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-09-21T11:08:52Z) - Cadence Detection in Symbolic Classical Music using Graph Neural
Networks [7.817685358710508]
本稿では,シンボルスコアのグラフ表現を中間的手段として提示し,ケイデンス検出課題を解決する。
グラフ畳み込みネットワークを用いた不均衡ノード分類問題としてケイデンス検出にアプローチする。
実験の結果,グラフ畳み込みは,非局所的コンテキストを符号化する特殊な特徴を考案する必要がなく,ケイデンス検出を支援する非局所的特徴を学習できることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T12:39:57Z) - Barwise Compression Schemes for Audio-Based Music Structure Analysis [4.39160562548524]
音楽構造解析 (MSA) は、楽曲を複数の異なるセクションに分割する。
我々は、曲のオリジナル内容の簡易な表現により、構造がより容易に明らかにされるという仮説の下で、圧縮フレームワーク内のMSAにアプローチする。
本実験では,非教師なし圧縮方式により,最先端の教師付き手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T12:23:57Z) - PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文 参考訳(メタデータ) (2022-02-09T20:33:37Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。