論文の概要: Unsupervised Learning of Deep Features for Music Segmentation
- arxiv url: http://arxiv.org/abs/2108.12955v1
- Date: Mon, 30 Aug 2021 01:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 22:33:39.804747
- Title: Unsupervised Learning of Deep Features for Music Segmentation
- Title(参考訳): 音楽セグメンテーションにおける深い特徴の教師なし学習
- Authors: Matthew C. McCallum
- Abstract要約: 音楽セグメンテーション(英: Music segmentation)は、音楽セグメンテーションの境界を識別し、ラベル付けする問題である。
様々な楽曲セグメンテーションアルゴリズムの性能は、音声を表現するために選択された音声機能に依存している。
本研究では,畳み込みニューラルネットワーク(CNN)を用いたディープ・フィーチャー・埋め込みの教師なしトレーニングを音楽セグメンテーションのために検討した。
- 参考スコア(独自算出の注目度): 8.528384027684192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music segmentation refers to the dual problem of identifying boundaries
between, and labeling, distinct music segments, e.g., the chorus, verse, bridge
etc. in popular music. The performance of a range of music segmentation
algorithms has been shown to be dependent on the audio features chosen to
represent the audio. Some approaches have proposed learning feature
transformations from music segment annotation data, although, such data is time
consuming or expensive to create and as such these approaches are likely
limited by the size of their datasets. While annotated music segmentation data
is a scarce resource, the amount of available music audio is much greater. In
the neighboring field of semantic audio unsupervised deep learning has shown
promise in improving the performance of solutions to the query-by-example and
sound classification tasks. In this work, unsupervised training of deep feature
embeddings using convolutional neural networks (CNNs) is explored for music
segmentation. The proposed techniques exploit only the time proximity of audio
features that is implicit in any audio timeline. Employing these embeddings in
a classic music segmentation algorithm is shown not only to significantly
improve the performance of this algorithm, but obtain state of the art
performance in unsupervised music segmentation.
- Abstract(参考訳): 音楽セグメンテーション(英: music segmentation)とは、合唱、詩、橋など、異なる音楽セグメンテーションの境界とラベリングの境界を特定するという2つの問題を指す。
ポピュラー音楽で
様々な楽曲セグメンテーションアルゴリズムの性能は、音声を表現するために選択された音声機能に依存することが示されている。
音楽セグメントのアノテーションデータから特徴変換を学習する方法も提案されているが、そのようなデータは作成に時間がかかるかコストがかかるため、データセットのサイズによって制限される可能性が高い。
注釈付き音楽セグメンテーションデータは少ないが、利用可能な音楽オーディオの量ははるかに多い。
セマンティックオーディオの分野において、教師なしディープラーニングは、クエリバイサンプルと音声分類タスクのソリューションのパフォーマンス向上に有望であることが示されている。
本研究では,畳み込みニューラルネットワーク(CNN)を用いたディープフィーチャ埋め込みの教師なしトレーニングを音楽セグメンテーションのために検討した。
提案手法は、任意の音声タイムラインに暗黙的な音声特徴の時間的近接のみを利用する。
これらの埋め込みを古典的な楽曲セグメンテーションアルゴリズムに組み込むことで、このアルゴリズムの性能を大幅に向上するだけでなく、教師なし楽曲セグメンテーションにおけるアートパフォーマンスの状態を得られる。
関連論文リスト
- Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Symbolic Music Structure Analysis with Graph Representations and
Changepoint Detection Methods [1.1677169430445211]
シンボリック音楽の形式や構造を,ノルム,G-PELT,G-Windowの3つの手法を提案する。
我々は,記号曲をグラフ表現で符号化し,隣接行列の斬新さを計算することで,記号曲の構造をうまく表現できることを発見した。
論文 参考訳(メタデータ) (2023-03-24T09:45:11Z) - MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification [1.8275108630751844]
不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。
既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。
末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-09-09T03:52:44Z) - MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。
本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。
我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文 参考訳(メタデータ) (2021-04-24T16:34:47Z) - Artificially Synthesising Data for Audio Classification and Segmentation
to Improve Speech and Music Detection in Radio Broadcast [0.0]
無線信号に類似したデータを人工的に合成する新しい手順を提案する。
この合成データに対して畳み込み型リカレントニューラルネットワーク(crnn)を訓練し,音楽音声検出のための最先端アルゴリズムと比較した。
論文 参考訳(メタデータ) (2021-02-19T14:47:05Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - DenoiSeg: Joint Denoising and Segmentation [75.91760529986958]
我々は,いくつかの注釈付き基底真理セグメンテーションでエンドツーエンドに学習できる新しい手法であるDenoySegを提案する。
我々は、ノイズの多い画像だけで訓練できる自己教師付き遮音方式であるNoss2Voidを拡張して、密度の高い3クラスセグメンテーションを予測する。
論文 参考訳(メタデータ) (2020-05-06T17:42:54Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。