論文の概要: Unsupervised Musical Object Discovery from Audio
- arxiv url: http://arxiv.org/abs/2311.07534v1
- Date: Mon, 13 Nov 2023 18:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 13:09:56.247191
- Title: Unsupervised Musical Object Discovery from Audio
- Title(参考訳): オーディオからの教師なし音楽オブジェクト発見
- Authors: Joonsu Gha, Vincent Herrmann, Benjamin Grewe, J\"urgen Schmidhuber,
Anand Gopalakrishnan
- Abstract要約: MusicSlotsはSlotAttentionをオーディオ領域に適応させ、教師なしの音楽分解を実現する。
西洋の声調音楽における対象中心学習を評価するために,スペクトログラムに基づく多目的音楽データセットを提案する。
MusicSlotsは、教師なしノート発見において優れたパフォーマンスを実現し、教師付きノートプロパティ予測タスクにおいて、いくつかの確立されたベースラインを上回っている。
- 参考スコア(独自算出の注目度): 4.2287944154600146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current object-centric learning models such as the popular SlotAttention
architecture allow for unsupervised visual scene decomposition. Our novel
MusicSlots method adapts SlotAttention to the audio domain, to achieve
unsupervised music decomposition. Since concepts of opacity and occlusion in
vision have no auditory analogues, the softmax normalization of alpha masks in
the decoders of visual object-centric models is not well-suited for decomposing
audio objects. MusicSlots overcomes this problem. We introduce a
spectrogram-based multi-object music dataset tailored to evaluate
object-centric learning on western tonal music. MusicSlots achieves good
performance on unsupervised note discovery and outperforms several established
baselines on supervised note property prediction tasks.
- Abstract(参考訳): 一般的なSlotAttentionアーキテクチャのような現在のオブジェクト中心学習モデルは、教師なしの視覚的シーン分解を可能にする。
新たなMusicSlots法は、SlotAttentionをオーディオ領域に適応させ、教師なしの音楽分解を実現する。
視覚における不透明性やオクルージョンの概念には聴覚類似性がないため、視覚オブジェクト中心モデルのデコーダにおけるアルファマスクのソフトマックス正規化は、オーディオオブジェクトの分解には適していない。
MusicSlotsはこの問題を克服する。
西洋の声調音楽における対象中心学習を評価するために,スペクトログラムに基づく多目的音楽データセットを提案する。
musicslotsは教師なしのノート発見で優れたパフォーマンスを達成し、教師なしのノートプロパティ予測タスクで確立されたいくつかのベースラインを上回っています。
関連論文リスト
- Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - Masked Multi-Query Slot Attention for Unsupervised Object Discovery [7.613552182035413]
本研究では,DINO ViTの特徴をスロットと呼ばれる一連の表現によって再構成するオブジェクト中心のアプローチについて考察する。
本稿では,背景領域を無視した入力特徴のマスキング手法を提案する。
実験結果とPASCAL-VOC 2012データセットの短縮は、各コンポーネントの重要性を示し、それらの組み合わせがオブジェクトのローカライゼーションを継続的に改善することを示す。
論文 参考訳(メタデータ) (2024-04-30T15:51:05Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Cadence Detection in Symbolic Classical Music using Graph Neural
Networks [7.817685358710508]
本稿では,シンボルスコアのグラフ表現を中間的手段として提示し,ケイデンス検出課題を解決する。
グラフ畳み込みネットワークを用いた不均衡ノード分類問題としてケイデンス検出にアプローチする。
実験の結果,グラフ畳み込みは,非局所的コンテキストを符号化する特殊な特徴を考案する必要がなく,ケイデンス検出を支援する非局所的特徴を学習できることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T12:39:57Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Visual Attention for Musical Instrument Recognition [72.05116221011949]
本研究では,楽器認識の性能向上を図るため,音節時間感覚における注意機構,すなわち視覚的注意(la visual attention)の活用について検討する。
第1のアプローチは,各音節時間インスタンスに基づく予測をアグリゲーション前に注意重み付けし,最終的な予測を生成するスライディング・ウインドウ・パラダイムに注意機構を適用した。
第2のアプローチは、ネットワークがスペクトログラムの一部にのみ参加し、限られた回数の視覚的注意を前提として、次にどこに出席するかを決定する、反復的な視覚的注意モデルに基づいている。
論文 参考訳(メタデータ) (2020-06-17T03:56:44Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。