論文の概要: Learning Relationships Between Separate Audio Tracks for Creative Applications
- arxiv url: http://arxiv.org/abs/2509.25296v1
- Date: Mon, 29 Sep 2025 16:06:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.241746
- Title: Learning Relationships Between Separate Audio Tracks for Creative Applications
- Title(参考訳): 創造的応用のための個別音声トラック間の学習関係
- Authors: Balthazar Bujard, Jérôme Nika, Fédéric Bevilacqua, Nicolas Obin,
- Abstract要約: 本稿では,音楽エージェント分野における研究プロジェクトにおける第一歩について述べる。
本研究の目的は,ライブ音楽入力とリアルタイム音楽出力との間の,所望の音楽関係のチューニングをトレーニングを通じて行うことである。
本稿では,音楽関係の学習と活用が可能なシンボリック決定モジュールを統合するアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 3.4998703934432682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the first step in a research project situated within the field of musical agents. The objective is to achieve, through training, the tuning of the desired musical relationship between a live musical input and a real-time generated musical output, through the curation of a database of separated tracks. We propose an architecture integrating a symbolic decision module capable of learning and exploiting musical relationships from such musical corpus. We detail an offline implementation of this architecture employing Transformers as the decision module, associated with a perception module based on Wav2Vec 2.0, and concatenative synthesis as audio renderer. We present a quantitative evaluation of the decision module's ability to reproduce learned relationships extracted during training. We demonstrate that our decision module can predict a coherent track B when conditioned by its corresponding ''guide'' track A, based on a corpus of paired tracks (A, B).
- Abstract(参考訳): 本稿では,音楽エージェント分野における研究プロジェクトにおける第一歩について述べる。
本研究の目的は、ライブ音楽入力とリアルタイム音楽出力との間の所望の音楽関係のチューニングを、トレーニングを通じて、分離されたトラックのデータベースのキュレーションにより達成することである。
そこで我々は,このような音楽コーパスから音楽関係を学習し,活用できるシンボリック決定モジュールを統合するアーキテクチャを提案する。
本稿では,Wav2Vec 2.0に基づく知覚モジュールに関連付けられた決定モジュールとしてTransformersを用いたアーキテクチャのオフライン実装について述べる。
本稿では,学習中に抽出した学習関係を再現する決定モジュールの能力について定量的に評価する。
我々は,この決定モジュールが,ペアトラック(A,B)のコーパスに基づいて,対応する'ガイド'トラックAで条件付けられたとき,コヒーレントトラックBを予測できることを実証する。
関連論文リスト
- Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation [3.8570045844185237]
マルチトラックデータセットでトレーニングした新しいJEPA(Joint-Embedding Predictive Architecture)であるStem-JEPAを紹介する。
本モデルでは, エンコーダと予測器の2つのネットワークから構成される。
MUSDB18データセットの検索タスクにおいて、本モデルの性能を評価し、ミキシングから欠落した茎を見つける能力を検証した。
論文 参考訳(メタデータ) (2024-08-05T14:34:40Z) - Towards Explainable and Interpretable Musical Difficulty Estimation: A Parameter-efficient Approach [49.2787113554916]
音楽コレクションの整理には曲の難易度を推定することが重要である。
シンボリックな音楽表現の難易度推定には説明可能な記述子を用いる。
ピアノレパートリーで評価したアプローチは,平均2乗誤差(MSE)が1.7。
論文 参考訳(メタデータ) (2024-08-01T11:23:42Z) - COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations [17.218899140175697]
COCOLAは、サンプル間の調和的・リズム的コヒーレンスをキャプチャする、音響音響表現の対照的な学習方法である。
本手法は,音楽トラックを構成する幹のレベルで動作し,ハーモニック・パーカッッシブ分離(HPS)によって得られる特徴を入力できる。
論文 参考訳(メタデータ) (2024-04-25T18:42:25Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。