論文の概要: CoverHunter: Cover Song Identification with Refined Attention and
Alignments
- arxiv url: http://arxiv.org/abs/2306.09025v1
- Date: Thu, 15 Jun 2023 10:34:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 15:15:35.669523
- Title: CoverHunter: Cover Song Identification with Refined Attention and
Alignments
- Title(参考訳): coverhunter: 注意とアライメントを洗練したカバーソングの識別
- Authors: Feng Liu, Deyi Tuo, Yinan Xu, Xintong Han
- Abstract要約: カバーソング識別(CSI)は、クエリトラックが与えられたアンカーの異なるバージョンで同じ音楽を見つけることに焦点を当てている。
本研究では,既存の検出方式の欠点を克服するCoverHunterという新しいシステムを提案する。
- 参考スコア(独自算出の注目度): 19.173689175634106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Abstract: Cover song identification (CSI) focuses on finding the same music
with different versions in reference anchors given a query track. In this
paper, we propose a novel system named CoverHunter that overcomes the
shortcomings of existing detection schemes by exploring richer features with
refined attention and alignments. CoverHunter contains three key modules: 1) A
convolution-augmented transformer (i.e., Conformer) structure that captures
both local and global feature interactions in contrast to previous methods
mainly relying on convolutional neural networks; 2) An attention-based time
pooling module that further exploits the attention in the time dimension; 3) A
novel coarse-to-fine training scheme that first trains a network to roughly
align the song chunks and then refines the network by training on the aligned
chunks. At the same time, we also summarize some important training tricks used
in our system that help achieve better results. Experiments on several standard
CSI datasets show that our method significantly improves over state-of-the-art
methods with an embedding size of 128 (2.3% on SHS100K-TEST and 17.7% on
DaTacos).
- Abstract(参考訳): Abstract: Cover song Identification (CSI)は、クエリトラックが与えられた参照アンカーで異なるバージョンで同じ音楽を見つけることに焦点を当てている。
本稿では,注目度とアライメントを改良したリッチな特徴を探索することにより,既存の検出手法の欠点を克服するCoverHunterというシステムを提案する。
coverhunterには3つの重要なモジュールがある。
1) 畳み込みニューラルネットワークを主とする従来の方法と対照的に,局所的及び大域的特徴的相互作用をキャプチャする畳み込み案内トランス(コンフォーメータ)構造
2) 時間次元の注意をさらに活用する注意に基づくタイムプーリングモジュール
3)まず,曲のチャンクを大まかに整えるようにネットワークを訓練し,その後,整列したチャンクを訓練してネットワークを洗練する,新たな粗粒度訓練方式を提案する。
同時に、より優れた結果を得るために、システムで使用される重要なトレーニングトリックを要約します。
いくつかの標準CSIデータセットを用いた実験では,組込みサイズが128(SHS100K-TESTで2.3%,DaTacosで17.7%)の最先端手法よりも大幅に改善されている。
関連論文リスト
- Multi-Correlation Siamese Transformer Network with Dense Connection for
3D Single Object Tracking [14.47355191520578]
ポイントクラウドベースの3Dオブジェクトトラッキングは、自動運転において重要なタスクである。
スパースLIDARポイントクラウドデータでテンプレートと検索ブランチの相関を効果的に学習することは依然として困難である。
本稿では,複数のステージを持つマルチ相関シームス変圧器ネットワークを提案し,各ステージの最後に特徴相関を行う。
論文 参考訳(メタデータ) (2023-12-18T09:33:49Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Clustering based Point Cloud Representation Learning for 3D Analysis [80.88995099442374]
本稿では,ポイントクラウド分析のためのクラスタリングに基づく教師付き学習手法を提案する。
現在のデファクトでシーンワイドなトレーニングパラダイムとは異なり、我々のアルゴリズムは点埋め込み空間上でクラス内のクラスタリングを行う。
我々のアルゴリズムは、有名なポイントクラウドセグメンテーションデータセットの顕著な改善を示している。
論文 参考訳(メタデータ) (2023-07-27T03:42:12Z) - TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation [0.5482532589225552]
本稿では,空間的コンテキスト情報を中心として,新たなネットワークである Triple Context Network (TC-Net) を提案する。
我々のネットワークはオープンデータセットATLASで評価され、最高スコアは0.594、ハウスドルフ距離は27.005mm、平均対称性表面距離は7.137mmである。
論文 参考訳(メタデータ) (2022-02-28T11:12:16Z) - LC3Net: Ladder context correlation complementary network for salient
object detection [0.32116198597240836]
我々は,新しいラグコンテキスト相関補完ネットワーク (LC3Net) を提案する。
FCBはフィルタリング可能な畳み込みブロックであり、初期特徴の多様性に関する情報の自動収集を支援する。
DCMは、異なるレベルの特徴の密集を促進するための密接なクロスモジュールである。
BCDは双方向圧縮デコーダであり、マルチスケール機能の段階的縮小を支援する。
論文 参考訳(メタデータ) (2021-10-21T03:12:32Z) - Supervised Chorus Detection for Popular Music Using Convolutional Neural
Network and Multi-task Learning [10.160205869706965]
本稿では,ポピュラー音楽のコーラスセグメントを検出するための新しい教師付きアプローチを提案する。
本稿では,2つの時間的アクティベーション曲線に同時に適合するマルチタスク学習目的の畳み込みニューラルネットワークを提案する。
また,合唱と境界予測を共同で考慮し,バイナリ出力を生成するポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2021-03-26T04:32:08Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - ByteCover: Cover Song Identification via Multi-Loss Training [20.215501383270706]
ByteCoverはカバーソング識別(CSI)のための新しい特徴学習法である
2つの大きな改善は、CSIのモデルの性能をさらに向上させるように設計されている。
複数のデータセット上でByteCoverの有効性と効率を実証した。
論文 参考訳(メタデータ) (2020-10-27T02:59:54Z) - A Self-Supervised Gait Encoding Approach with Locality-Awareness for 3D
Skeleton Based Person Re-Identification [65.18004601366066]
3Dスケルトン配列内の歩行特徴による人物再識別(Re-ID)は、いくつかの利点を持つ新しい話題である。
本稿では、ラベルのない骨格データを利用して人物の歩行表現を学習できる自己教師付き歩行符号化手法を提案する。
論文 参考訳(メタデータ) (2020-09-05T16:06:04Z) - Searching Central Difference Convolutional Networks for Face
Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。
最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。
ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T12:48:37Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。