論文の概要: Barwise Compression Schemes for Audio-Based Music Structure Analysis
- arxiv url: http://arxiv.org/abs/2202.04981v1
- Date: Thu, 10 Feb 2022 12:23:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-12 00:33:01.016347
- Title: Barwise Compression Schemes for Audio-Based Music Structure Analysis
- Title(参考訳): 音楽構造解析のためのBarwise Compression Schemes
- Authors: Axel Marmoret, J\'er\'emy E. Cohen, Fr\'ed\'eric Bimbot
- Abstract要約: 音楽構造解析 (MSA) は、楽曲を複数の異なるセクションに分割する。
我々は、曲のオリジナル内容の簡易な表現により、構造がより容易に明らかにされるという仮説の下で、圧縮フレームワーク内のMSAにアプローチする。
本実験では,非教師なし圧縮方式により,最先端の教師付き手法に匹敵する性能を実現する。
- 参考スコア(独自算出の注目度): 4.39160562548524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music Structure Analysis (MSA) consists in segmenting a music piece in
several distinct sections. We approach MSA within a compression framework,
under the hypothesis that the structure is more easily revealed by a simplified
representation of the original content of the song.
More specifically, under the hypothesis that MSA is correlated with
similarities occurring at the bar scale, linear and non-linear compression
schemes can be applied to barwise audio signals. Compressed representations
capture the most salient components of the different bars in the song and are
then used to infer the song structure using a dynamic programming algorithm.
This work explores both low-rank approximation models such as Principal
Component Analysis or Nonnegative Matrix Factorization and "piece-specific"
Auto-Encoding Neural Networks, with the objective to learn latent
representations specific to a given song. Such approaches do not rely on
supervision nor annotations, which are well-known to be tedious to collect and
possibly ambiguous in MSA description.
In our experiments, several unsupervised compression schemes achieve a level
of performance comparable to that of state-of-the-art supervised methods (for
3s tolerance) on the RWC-Pop dataset, showcasing the importance of the barwise
compression processing for MSA.
- Abstract(参考訳): 音楽構造解析 (MSA) は、楽曲を複数の異なるセクションに分割する。
圧縮フレームワーク内でmsaにアプローチし,楽曲のオリジナルコンテンツの簡易表現によって構造がより容易に明らかにされるという仮説のもとに,msaにアプローチする。
より具体的には、MSAがバースケールで発生する類似性と相関しているという仮説の下で、線形および非線形圧縮スキームをバーワイズ音声信号に適用することができる。
圧縮された表現は、曲中の様々なバーの最も顕著な要素をキャプチャし、動的プログラミングアルゴリズムを用いて曲の構造を推測するために使用される。
本研究は,主成分分析や非負行列因子化などの低ランク近似モデルと,特定の歌に特有の潜在表現を学習することを目的とした自動符号化ニューラルネットワークについて検討する。
このようなアプローチは、MSAの記述の収集が面倒で、おそらく曖昧であることで知られる監視やアノテーションに依存しない。
実験では,RWC-Popデータセット上での最先端の教師付き手法(3s寛容法)に匹敵する性能を達成し,MSAのバーワイズ圧縮処理の重要性を示した。
関連論文リスト
- A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
また,モーザイクアーティファクトを緩和するのには単純だが有効であるHR特徴量に対して,きめ細かな近傍選択戦略を開発した。
提案するReSFUフレームワークは,異なるセグメンテーションアプリケーション上での良好な性能を一貫して達成する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Self-Similarity-Based and Novelty-based loss for music structure
analysis [5.3900692419866285]
音楽境界検出のタスクに対する教師付きアプローチを提案する。
このアプローチでは、機能と畳み込みカーネルを同時に学習します。
自己注意による相対的特徴学習は,MSAの課題に有益であることを示す。
論文 参考訳(メタデータ) (2023-09-05T13:49:29Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Symbolic Music Structure Analysis with Graph Representations and
Changepoint Detection Methods [1.1677169430445211]
シンボリック音楽の形式や構造を,ノルム,G-PELT,G-Windowの3つの手法を提案する。
我々は,記号曲をグラフ表現で符号化し,隣接行列の斬新さを計算することで,記号曲の構造をうまく表現できることを発見した。
論文 参考訳(メタデータ) (2023-03-24T09:45:11Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - Self-Supervised Representation Learning With MUlti-Segmental
Informational Coding (MUSIC) [6.693379403133435]
自己教師付き表現学習は、高次元データを意味のある埋め込み空間にマッピングする。
自己教師型表現学習のためのMUSIC(MUlti-Segmental Informational Coding)を提案する。
論文 参考訳(メタデータ) (2022-06-13T20:37:48Z) - Exploring single-song autoencoding schemes for audio-based music
structure analysis [6.037383467521294]
この研究は、低次元のオートエンコーダを訓練し、特定の歌に特有の潜在/圧縮表現を学習する「ピース固有」オートエンコード方式を探求する。
提案手法は,3秒耐性を有する教師付き最先端手法の性能レベルを実現する。
論文 参考訳(メタデータ) (2021-10-27T13:48:25Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Revisit Visual Representation in Analytics Taxonomy: A Compression
Perspective [69.99087941471882]
圧縮された視覚表現を用いて複数のマシンビジョン分析タスクをサポートする問題について検討する。
異なるタスク間の本質的な転送性を利用することで、低ビットレートでコンパクトで表現力のある表現を構築できる。
表現にコンパクトさを課すために,コードブックベースのハイパープライヤを提案する。
論文 参考訳(メタデータ) (2021-06-16T01:44:32Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Uncovering audio patterns in music with Nonnegative Tucker Decomposition
for structural segmentation [0.0]
本研究では,ノンネガティブ・タッカー・デコンポジットトン(NTD)の音楽的パターンと構造を音声形式で明らかにする能力を検討する。
NTDがいくつかのパターンの線形結合としてバーの内容を表現する傾向にあるという事実をエクスプロイトし、対応する圧縮空間で繰り返しモチーフを捕捉して取り出す分解能力を示す。
論文 参考訳(メタデータ) (2021-04-17T15:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。