論文の概要: Disentangled Multidimensional Metric Learning for Music Similarity
- arxiv url: http://arxiv.org/abs/2008.03720v2
- Date: Wed, 12 Aug 2020 21:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 04:58:24.043668
- Title: Disentangled Multidimensional Metric Learning for Music Similarity
- Title(参考訳): 音楽類似性のための多次元距離学習
- Authors: Jongpil Lee, Nicholas J. Bryan, Justin Salamon, Zeyu Jin, Juhan Nam
- Abstract要約: 音楽類似性検索は、同じ「フィール」で1つの録音を別の録音に置き換えるのに有用である
音楽の類似性は定義が難しく、類似性の複数の同時概念に依存している。
我々は多次元類似性の概念を導入し、グローバルおよび特殊類似性メトリクスを単一のメートル法に統一する。
- 参考スコア(独自算出の注目度): 36.74680586571013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music similarity search is useful for a variety of creative tasks such as
replacing one music recording with another recording with a similar "feel", a
common task in video editing. For this task, it is typically necessary to
define a similarity metric to compare one recording to another. Music
similarity, however, is hard to define and depends on multiple simultaneous
notions of similarity (i.e. genre, mood, instrument, tempo). While prior work
ignore this issue, we embrace this idea and introduce the concept of
multidimensional similarity and unify both global and specialized similarity
metrics into a single, semantically disentangled multidimensional similarity
metric. To do so, we adapt a variant of deep metric learning called conditional
similarity networks to the audio domain and extend it using track-based
information to control the specificity of our model. We evaluate our method and
show that our single, multidimensional model outperforms both specialized
similarity spaces and alternative baselines. We also run a user-study and show
that our approach is favored by human annotators as well.
- Abstract(参考訳): 音楽の類似性検索は、ある音楽録音を別の録音に置き換えるといった、ビデオ編集における一般的なタスクである類似の「feel」に置き換えるといった、様々な創造的なタスクに有用である。
このタスクでは、通常、ある記録と別の記録を比較するために類似度メトリックを定義する必要がある。
しかし、音楽の類似性は定義が困難であり、類似性の複数の同時概念(ジャンル、ムード、楽器、テンポ)に依存している。
先行研究はこの問題を無視する一方で、この概念を受け入れ、多次元類似性の概念を導入し、大域的および特殊的類似性メトリクスを単一の意味的に不整合した多次元類似性メトリクスに統一する。
そのために,条件付き類似性ネットワークと呼ばれる深層メトリック学習の変種を音声領域に適用し,トラックベース情報を用いてモデルの特異性を制御する。
提案手法を評価し, 単一多次元モデルが特殊類似性空間と代替ベースラインよりも優れていることを示す。
ユーザスタディも実行し、アプローチが人間のアノテーションにも好まれていることを示す。
関連論文リスト
- GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures [49.24097977047392]
本稿では,言語モデリングの主流となる2つのアーキテクチャ,すなわち Transformers と Mambas について検討する。
我々はこれらのモデルから解釈可能な特徴を分離するためにスパースオートエンコーダ(SAE)を用いることを提案し、これらの2つのモデルでほとんどの特徴が似ていることを示す。
論文 参考訳(メタデータ) (2024-10-09T08:28:53Z) - A Computational Analysis of Lyric Similarity Perception [1.1510009152620668]
人間の知覚との類似性をモデル化するための計算手法の比較分析を行う。
以上の結果から,事前学習したBERTモデルからの埋め込み,歌詞が導出される音声,知覚的歌詞の類似性を示す音声成分の類似性に基づく計算モデルが示唆された。
論文 参考訳(メタデータ) (2024-04-02T22:31:38Z) - Self-Supervised Representation Learning With MUlti-Segmental
Informational Coding (MUSIC) [6.693379403133435]
自己教師付き表現学習は、高次元データを意味のある埋め込み空間にマッピングする。
自己教師型表現学習のためのMUSIC(MUlti-Segmental Informational Coding)を提案する。
論文 参考訳(メタデータ) (2022-06-13T20:37:48Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - Generalized quantum similarity learning [0.0]
我々は、同じ次元を持たないデータ間のタスク依存(a)対称類似性を学習するための量子ネットワーク(GQSim)を提案する。
この手法を用いて導出された類似度尺度が$(epsilon,gamma,tau)$-goodであることを示す。
論文 参考訳(メタデータ) (2022-01-07T03:28:19Z) - MNet-Sim: A Multi-layered Semantic Similarity Network to Evaluate
Sentence Similarity [0.0]
類似性(英: similarity)は、それが考慮される領域によって異なる比較目的測度である。
本稿では,複数の類似度に基づく多層意味類似性ネットワークモデルを提案する。
その結果, 文類似性の評価において, 性能スコアが向上していることが判明した。
論文 参考訳(メタデータ) (2021-11-09T20:43:18Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。