論文の概要: Similar but Faster: Manipulation of Tempo in Music Audio Embeddings for
Tempo Prediction and Search
- arxiv url: http://arxiv.org/abs/2401.08902v1
- Date: Wed, 17 Jan 2024 01:06:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:26:27.865439
- Title: Similar but Faster: Manipulation of Tempo in Music Audio Embeddings for
Tempo Prediction and Search
- Title(参考訳): 類似しているが高速:テンポ予測と探索のための音楽音声埋め込みにおけるテンポ操作
- Authors: Matthew C. McCallum, Florian Henkel, Jaehun Kim, Samuel E. Sandberg,
Matthew E. P. Davies
- Abstract要約: 本稿では,既存の埋め込み空間内でのテンポの効率的な操作を可能にする関数を提案する。
この翻訳はテンポに特有であるので、類似しているが特に異なるテンポを持つトラックの検索を可能にする。
このような関数は,下流のテンポ予測器を訓練するための効率的なデータ拡張戦略として利用でき,テンポに依存しない特性の近接検索を改善することができる。
- 参考スコア(独自算出の注目度): 6.255143207183722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio embeddings enable large scale comparisons of the similarity of audio
files for applications such as search and recommendation. Due to the
subjectivity of audio similarity, it can be desirable to design systems that
answer not only whether audio is similar, but similar in what way (e.g., wrt.
tempo, mood or genre). Previous works have proposed disentangled embedding
spaces where subspaces representing specific, yet possibly correlated,
attributes can be weighted to emphasize those attributes in downstream tasks.
However, no research has been conducted into the independence of these
subspaces, nor their manipulation, in order to retrieve tracks that are similar
but different in a specific way. Here, we explore the manipulation of tempo in
embedding spaces as a case-study towards this goal. We propose tempo
translation functions that allow for efficient manipulation of tempo within a
pre-existing embedding space whilst maintaining other properties such as genre.
As this translation is specific to tempo it enables retrieval of tracks that
are similar but have specifically different tempi. We show that such a function
can be used as an efficient data augmentation strategy for both training of
downstream tempo predictors, and improved nearest neighbor retrieval of
properties largely independent of tempo.
- Abstract(参考訳): オーディオ埋め込みは、検索やレコメンデーションなどのアプリケーションにおけるオーディオファイルの類似性に関する大規模な比較を可能にする。
オーディオ類似性の主観性のため、オーディオが類似しているだけでなく、どのような方法で類似しているか(例えば、テンポ、ムード、ジャンルなど)に答えるシステムの設計が望ましい。
以前の研究では、特定の、しかしおそらく相関性のある属性を表す部分空間が下流タスクでそれらの属性を強調するために重み付けられるような、不等角埋め込み空間を提案している。
しかし、類似しているが特定の方法で異なるトラックを検索するために、これらの部分空間の独立性や操作についての研究は行われていない。
ここでは、この目標に向けてのケーススタディとして、埋め込み空間におけるテンポの操作について検討する。
本稿では,既存の埋め込み空間におけるテンポの効率的な操作を可能にするとともに,ジャンルなどの他の特性を維持できるテンポ翻訳関数を提案する。
この翻訳はテンポ特有のものであるため、類似しているが特にテンポが異なるトラックを検索することができる。
このような関数は,下流のテンポ予測器を訓練するための効率的なデータ拡張戦略として利用でき,テンポに依存しない特性の近接検索を改善することができる。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Dissecting Temporal Understanding in Text-to-Audio Retrieval [22.17493527005141]
テキスト・音声検索の文脈において,音の時間的順序付けは未検討の問題である。
特に,AudioCaps および Clotho データセット上でのテキスト音声検索のための最先端モデルの時間的理解能力について検討する。
本稿では,テキストオーディオモデルにイベントの時間的順序付けに焦点をあてるロス関数を提案する。
論文 参考訳(メタデータ) (2024-09-01T22:01:21Z) - Learning Temporal Distances: Contrastive Successor Features Can Provide a Metric Structure for Decision-Making [66.27188304203217]
時間的距離は、計画、制御、強化学習のための多くのアルゴリズムの中心にある。
このような時間的距離を設定内で定義しようとする以前の試みは、重要な制限によって妨げられている。
比較学習によって学習された後継特徴が,三角形の不等式を満たす時間的距離を形成することを示す。
論文 参考訳(メタデータ) (2024-06-24T19:36:45Z) - Tempo estimation as fully self-supervised binary classification [6.255143207183722]
ラベル付きデータに依存しない完全自己教師型アプローチを提案する。
提案手法は,テンポに関する情報を含む様々な特性を,すでに汎用的な(音楽的な)オーディオ埋め込みがエンコードしているという事実に基づいている。
論文 参考訳(メタデータ) (2024-01-17T00:15:16Z) - On the Effect of Data-Augmentation on Local Embedding Properties in the
Contrastive Learning of Music Audio Representations [6.255143207183722]
トラック内の同質な音楽特性は、結果として生じる埋め込み空間内の近傍の局所性に反映されることを示す。
音楽オーディオの埋め込みのコントラスト学習におけるデータ拡張戦略の最適選択は、下流タスクに依存していることを示す。
論文 参考訳(メタデータ) (2024-01-17T00:12:13Z) - MomentDiff: Generative Video Moment Retrieval from Random to Real [71.40038773943638]
私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。
MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。
MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-06T09:12:13Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - Disentangled Multidimensional Metric Learning for Music Similarity [36.74680586571013]
音楽類似性検索は、同じ「フィール」で1つの録音を別の録音に置き換えるのに有用である
音楽の類似性は定義が難しく、類似性の複数の同時概念に依存している。
我々は多次元類似性の概念を導入し、グローバルおよび特殊類似性メトリクスを単一のメートル法に統一する。
論文 参考訳(メタデータ) (2020-08-09T13:04:25Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。