論文の概要: Disentangled Multidimensional Metric Learning for Music Similarity
- arxiv url: http://arxiv.org/abs/2008.03720v2
- Date: Wed, 12 Aug 2020 21:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 04:58:24.043668
- Title: Disentangled Multidimensional Metric Learning for Music Similarity
- Title(参考訳): 音楽類似性のための多次元距離学習
- Authors: Jongpil Lee, Nicholas J. Bryan, Justin Salamon, Zeyu Jin, Juhan Nam
- Abstract要約: 音楽類似性検索は、同じ「フィール」で1つの録音を別の録音に置き換えるのに有用である
音楽の類似性は定義が難しく、類似性の複数の同時概念に依存している。
我々は多次元類似性の概念を導入し、グローバルおよび特殊類似性メトリクスを単一のメートル法に統一する。
- 参考スコア(独自算出の注目度): 36.74680586571013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music similarity search is useful for a variety of creative tasks such as
replacing one music recording with another recording with a similar "feel", a
common task in video editing. For this task, it is typically necessary to
define a similarity metric to compare one recording to another. Music
similarity, however, is hard to define and depends on multiple simultaneous
notions of similarity (i.e. genre, mood, instrument, tempo). While prior work
ignore this issue, we embrace this idea and introduce the concept of
multidimensional similarity and unify both global and specialized similarity
metrics into a single, semantically disentangled multidimensional similarity
metric. To do so, we adapt a variant of deep metric learning called conditional
similarity networks to the audio domain and extend it using track-based
information to control the specificity of our model. We evaluate our method and
show that our single, multidimensional model outperforms both specialized
similarity spaces and alternative baselines. We also run a user-study and show
that our approach is favored by human annotators as well.
- Abstract(参考訳): 音楽の類似性検索は、ある音楽録音を別の録音に置き換えるといった、ビデオ編集における一般的なタスクである類似の「feel」に置き換えるといった、様々な創造的なタスクに有用である。
このタスクでは、通常、ある記録と別の記録を比較するために類似度メトリックを定義する必要がある。
しかし、音楽の類似性は定義が困難であり、類似性の複数の同時概念(ジャンル、ムード、楽器、テンポ)に依存している。
先行研究はこの問題を無視する一方で、この概念を受け入れ、多次元類似性の概念を導入し、大域的および特殊的類似性メトリクスを単一の意味的に不整合した多次元類似性メトリクスに統一する。
そのために,条件付き類似性ネットワークと呼ばれる深層メトリック学習の変種を音声領域に適用し,トラックベース情報を用いてモデルの特異性を制御する。
提案手法を評価し, 単一多次元モデルが特殊類似性空間と代替ベースラインよりも優れていることを示す。
ユーザスタディも実行し、アプローチが人間のアノテーションにも好まれていることを示す。
関連論文リスト
- Knowledge-based Multimodal Music Similarity [0.0]
本研究は,シンボリックコンテンツとオーディオコンテンツの両方を用いた音楽的類似性の研究に焦点をあてる。
本研究の目的は、音楽の類似性や分類システムのより制御と理解をエンドユーザに提供する、完全に説明可能な、解釈可能なシステムを開発することである。
論文 参考訳(メタデータ) (2023-06-21T13:12:12Z) - Self-Supervised Representation Learning With MUlti-Segmental
Informational Coding (MUSIC) [6.693379403133435]
自己教師付き表現学習は、高次元データを意味のある埋め込み空間にマッピングする。
自己教師型表現学習のためのMUSIC(MUlti-Segmental Informational Coding)を提案する。
論文 参考訳(メタデータ) (2022-06-13T20:37:48Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。
我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文 参考訳(メタデータ) (2022-02-12T02:56:22Z) - Generalized quantum similarity learning [0.0]
我々は、同じ次元を持たないデータ間のタスク依存(a)対称類似性を学習するための量子ネットワーク(GQSim)を提案する。
この手法を用いて導出された類似度尺度が$(epsilon,gamma,tau)$-goodであることを示す。
論文 参考訳(メタデータ) (2022-01-07T03:28:19Z) - MNet-Sim: A Multi-layered Semantic Similarity Network to Evaluate
Sentence Similarity [0.0]
類似性(英: similarity)は、それが考慮される領域によって異なる比較目的測度である。
本稿では,複数の類似度に基づく多層意味類似性ネットワークモデルを提案する。
その結果, 文類似性の評価において, 性能スコアが向上していることが判明した。
論文 参考訳(メタデータ) (2021-11-09T20:43:18Z) - Instance Similarity Learning for Unsupervised Feature Representation [83.31011038813459]
教師なし特徴表現のための例類似性学習(ISL)手法を提案する。
我々はGAN(Generative Adversarial Networks)を用いて、基礎となる特徴多様体をマイニングする。
画像分類実験は, 最先端手法と比較して, 提案手法の優位性を示した。
論文 参考訳(メタデータ) (2021-08-05T16:42:06Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。