論文の概要: Less is more: Faster and better music version identification with
embedding distillation
- arxiv url: http://arxiv.org/abs/2010.03284v1
- Date: Wed, 7 Oct 2020 09:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 00:31:40.999827
- Title: Less is more: Faster and better music version identification with
embedding distillation
- Title(参考訳): less is more:より速く、より優れた音楽バージョン識別に蒸留を組み込む
- Authors: Furkan Yesiler and Joan Serr\`a and Emilia G\'omez
- Abstract要約: バージョン識別システムは、同じ楽曲(しばしばカバーソングと呼ばれる)の異なるリフレクションを検出することを目的としている。
近年のシステムでは,精度とスケーラビリティのギャップを埋める上で大きな進歩を遂げている。
このギャップをさらに狭めるために,事前訓練された最先端モデルの埋め込み次元を減少させる一連のデータ蒸留技術を用いて,このギャップを狭めることを提案する。
- 参考スコア(独自算出の注目度): 2.66418345185993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Version identification systems aim to detect different renditions of the same
underlying musical composition (loosely called cover songs). By learning to
encode entire recordings into plain vector embeddings, recent systems have made
significant progress in bridging the gap between accuracy and scalability,
which has been a key challenge for nearly two decades. In this work, we propose
to further narrow this gap by employing a set of data distillation techniques
that reduce the embedding dimensionality of a pre-trained state-of-the-art
model. We compare a wide range of techniques and propose new ones, from
classical dimensionality reduction to more sophisticated distillation schemes.
With those, we obtain 99% smaller embeddings that, moreover, yield up to a 3%
accuracy increase. Such small embeddings can have an important impact in
retrieval time, up to the point of making a real-world system practical on a
standalone laptop.
- Abstract(参考訳): バージョン識別システムは、同じ楽曲(しばしばカバーソングと呼ばれる)の異なるリフレクションを検出することを目的としている。
記録全体を平易なベクトル埋め込みにエンコードすることで、近年のシステムは精度とスケーラビリティのギャップを埋めることに大きな進歩を遂げている。
本研究では,このギャップをさらに狭めるために,事前学習された最先端モデルの埋め込み次元を減少させる一連のデータ蒸留手法を提案する。
古典的次元の還元からより洗練された蒸留スキームまで,幅広い技術を比較し,新しい方法を提案する。
これにより、99%の小さな埋め込みが得られ、さらに3%の精度向上が得られます。
このような小さな埋め込みは、現実のシステムをスタンドアロンのラップトップで実用化するまで、検索時間に重要な影響を与える可能性がある。
関連論文リスト
- SONICS: Synthetic Or Not -- Identifying Counterfeit Songs [0.16777183511743465]
我々は、エンドツーエンド合成歌検出(SSD)のための新しいデータセットSONICSを紹介する。
歌唱における時間的長期依存性をモデル化することの重要性を強調した。
特に、長いオーディオサンプルでは、私たちの最高のパフォーマンスの亜種は、ViTのスコアを8%上回り、スピードは38%、メモリ使用量は26%減った。
論文 参考訳(メタデータ) (2024-08-26T08:02:57Z) - Embedding Compression for Efficient Re-Identification [0.0]
ReIDアルゴリズムは、オブジェクトの新しい観測結果を以前に記録されたインスタンスにマッピングすることを目的としている。
我々は3つの異なる次元還元法とともに量子化学習をベンチマークする。
ReIDの埋め込みは96倍まで圧縮でき、性能は最小限に抑えられる。
論文 参考訳(メタデータ) (2024-05-23T15:57:11Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - CoverHunter: Cover Song Identification with Refined Attention and
Alignments [19.173689175634106]
カバーソング識別(CSI)は、クエリトラックが与えられたアンカーの異なるバージョンで同じ音楽を見つけることに焦点を当てている。
本研究では,既存の検出方式の欠点を克服するCoverHunterという新しいシステムを提案する。
論文 参考訳(メタデータ) (2023-06-15T10:34:20Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Knowledge Distillation via the Target-aware Transformer [83.03578375615614]
本稿では,新しい一対一空間マッチング知識蒸留手法を提案する。
具体的には,教師の特徴のそれぞれのピクセルを,生徒の特徴の空間的位置すべてに蒸留する。
我々のアプローチは、様々なコンピュータビジョンベンチマークにおいて最先端の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2022-05-22T10:26:54Z) - Always Be Dreaming: A New Approach for Data-Free Class-Incremental
Learning [73.24988226158497]
データフリークラスインクリメンタルラーニング(DFCIL)における高インパクト問題について考察する。
そこで本研究では, 改良型クロスエントロピートレーニングと重要重み付き特徴蒸留に寄与するDFCILの新たなインクリメンタル蒸留戦略を提案する。
本手法は,共通クラスインクリメンタルベンチマークにおけるSOTA DFCIL法と比較して,最終タスク精度(絶対差)が25.1%向上する。
論文 参考訳(メタデータ) (2021-06-17T17:56:08Z) - IB-DRR: Incremental Learning with Information-Back Discrete
Representation Replay [4.8666876477091865]
インクリメンタルラーニングは、機械学習モデルが新しいクラスから新しい知識を継続的に取得できるようにすることを目的としている。
以前に見たクラスのトレーニングサンプルのサブセットをメモリに保存し、新しいトレーニングフェーズ中に再生することは、この目標を達成するために効率的で効果的な方法であることが証明されています。
しかし、モデルパフォーマンスと各クラスに保存するサンプル数とのトレードオフを見つけることは、リプレイベースの漸進学習では依然として未解決の問題である。
論文 参考訳(メタデータ) (2021-04-21T15:32:11Z) - Mixed-Privacy Forgetting in Deep Networks [114.3840147070712]
大規模画像分類タスクにおいてトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を除去できることを示す。
そこで本研究では,混合プライバシー設定における「忘れ」という新しい概念を導入する。
提案手法は,モデル精度のトレードオフを伴わずに忘れることができることを示す。
論文 参考訳(メタデータ) (2020-12-24T19:34:56Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。