論文の概要: Contrastive timbre representations for musical instrument and synthesizer retrieval
- arxiv url: http://arxiv.org/abs/2509.13285v1
- Date: Tue, 16 Sep 2025 17:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.21069
- Title: Contrastive timbre representations for musical instrument and synthesizer retrieval
- Title(参考訳): 楽器のコントラスト音色表現とシンセサイザー検索
- Authors: Gwendal Le Vaillant, Yannick Molle,
- Abstract要約: 本稿では,楽器検索のためのコントラスト学習フレームワークを提案する。
シングル・インストラクト・サウンドとマルチ・インストラクト・サウンドの両方に対して単一のモデルを用いて、インスツルメンツ・データベースの直接クエリを可能にする。
- 参考スコア(独自算出の注目度): 1.3750624267664158
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Efficiently retrieving specific instrument timbres from audio mixtures remains a challenge in digital music production. This paper introduces a contrastive learning framework for musical instrument retrieval, enabling direct querying of instrument databases using a single model for both single- and multi-instrument sounds. We propose techniques to generate realistic positive/negative pairs of sounds for virtual musical instruments, such as samplers and synthesizers, addressing limitations in common audio data augmentation methods. The first experiment focuses on instrument retrieval from a dataset of 3,884 instruments, using single-instrument audio as input. Contrastive approaches are competitive with previous works based on classification pre-training. The second experiment considers multi-instrument retrieval with a mixture of instruments as audio input. In this case, the proposed contrastive framework outperforms related works, achieving 81.7\% top-1 and 95.7\% top-5 accuracies for three-instrument mixtures.
- Abstract(参考訳): オーディオミックスから特定の楽器の音色を効率よく取り出すことは、デジタル音楽制作の課題である。
本稿では,楽器検索のためのコントラスト学習フレームワークを提案する。
本稿では,サンプルやシンセサイザーなどの仮想楽器に対して,一般的な音声データ拡張手法の制限に対処する,現実的な正負の音対を生成する手法を提案する。
最初の実験では、3,884の楽器のデータセットから、シングルインストラクト・オーディオを入力として、楽器の検索に焦点を当てた。
対照的なアプローチは、事前学習の分類に基づく以前の作品と競合する。
第2の実験では、複数の楽器を混合したマルチインストラクト検索を音声入力として検討した。
この場合、提案したコントラッシブ・フレームワークは関連する研究よりも優れており、3成分混合に対して81.7\% Top-1と95.7\% Top-5アキュラシーを達成している。
関連論文リスト
- Music Boomerang: Reusing Diffusion Models for Data Augmentation and Audio Manipulation [49.062766449989525]
音楽オーディオの生成モデルは、典型的にはテキストプロンプトやメロディのみに基づいて出力を生成するために使用される。
画像領域に対して最近提案されたブーメランサンプリングでは,任意の事前学習拡散モデルを用いて,既存の例に近い出力を生成することができる。
論文 参考訳(メタデータ) (2025-07-07T10:46:07Z) - Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。
複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。
実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-24T17:58:21Z) - Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models [2.3749120526936465]
サンプルベース楽器の自動生成のためのニューラルオーディオ言語モデルを提案する。
提案手法は,88キーのスペクトル,速度,テキスト/オーディオの埋め込みを併用した音声合成フレームワークを拡張した。
論文 参考訳(メタデータ) (2024-07-22T13:59:58Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Show Me the Instruments: Musical Instrument Retrieval from Mixture Audio [11.941510958668557]
これを「楽器検索」と呼ぶ。
本稿では,クエリーとして参照音楽の混合を用いて,所望の楽器を検索する手法を提案する。
提案モデルは,畳み込みニューラルネットワークに基づくシングルインスツルメンツとマルチインスツルメンツで構成されている。
論文 参考訳(メタデータ) (2022-11-15T07:32:39Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - Towards Automatic Instrumentation by Learning to Separate Parts in
Symbolic Multitrack Music [33.679951600368405]
演奏中のソロ音楽の音符に楽器を動的に割り当てる自動楽器の実現可能性について検討する。
オンラインでリアルタイムに使用可能なパフォーマンスユースケースの設定に加えて、自動インスツルメンテーションはオフライン環境での補助的な構成ツールのアプリケーションも見つけることができる。
我々は,パート分離の課題を逐次多クラス分類問題として捉え,音符のシーケンスをパートラベルのシーケンスにマッピングするために機械学習を採用する。
論文 参考訳(メタデータ) (2021-07-13T08:34:44Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Time-Frequency Scattering Accurately Models Auditory Similarities
Between Instrumental Playing Techniques [5.923588533979649]
音色知覚は楽器や演奏技術だけで提供されるものよりも柔軟な分類法で機能することを示す。
本稿では,楽器,ミュート,技法間の類似性のクラスタグラフを復元するマシンリスニングモデルを提案する。
論文 参考訳(メタデータ) (2020-07-21T16:37:15Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。