論文の概要: PianoBind: A Multimodal Joint Embedding Model for Pop-piano Music
- arxiv url: http://arxiv.org/abs/2509.04215v1
- Date: Thu, 04 Sep 2025 13:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.177227
- Title: PianoBind: A Multimodal Joint Embedding Model for Pop-piano Music
- Title(参考訳): PianoBind:ポップピアノ音楽のためのマルチモーダルジョイント埋め込みモデル
- Authors: Hayeon Bang, Eunjin Choi, Seungheon Doh, Juhan Nam,
- Abstract要約: ソロピアノ音楽はジャンル、ムード、スタイルにまたがる豊かな意味情報を伝達する。
汎用的な音楽表現モデルは、同質のピアノ音楽において微妙な意味的区別を捉えるのにしばしば苦労する。
ピアノ固有のマルチモーダルな関節埋め込みモデルPianoBindを提案する。
- 参考スコア(独自算出の注目度): 18.411484855945627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solo piano music, despite being a single-instrument medium, possesses significant expressive capabilities, conveying rich semantic information across genres, moods, and styles. However, current general-purpose music representation models, predominantly trained on large-scale datasets, often struggle to captures subtle semantic distinctions within homogeneous solo piano music. Furthermore, existing piano-specific representation models are typically unimodal, failing to capture the inherently multimodal nature of piano music, expressed through audio, symbolic, and textual modalities. To address these limitations, we propose PianoBind, a piano-specific multimodal joint embedding model. We systematically investigate strategies for multi-source training and modality utilization within a joint embedding framework optimized for capturing fine-grained semantic distinctions in (1) small-scale and (2) homogeneous piano datasets. Our experimental results demonstrate that PianoBind learns multimodal representations that effectively capture subtle nuances of piano music, achieving superior text-to-music retrieval performance on in-domain and out-of-domain piano datasets compared to general-purpose music joint embedding models. Moreover, our design choices offer reusable insights for multimodal representation learning with homogeneous datasets beyond piano music.
- Abstract(参考訳): ソロ・ピアノ音楽はシングル・インストゥルメント・メディアであるにもかかわらず、ジャンル、ムード、スタイルにまたがる豊かな意味情報を伝達し、優れた表現力を持っている。
しかし、現在の汎用音楽表現モデルは、主に大規模なデータセットで訓練されており、同質のソロピアノ音楽において微妙な意味的区別を捉えるのに苦労することが多い。
さらに、既存のピアノ固有の表現モデルは、典型的には単調であり、音響、記号、テキストのモダリティによって表現されるピアノ音楽の本質的にマルチモーダルな性質を捉えていない。
これらの制約に対処するため,ピアノ固有のマルチモーダルジョイント埋め込みモデルであるPianoBindを提案する。
本研究では,(1)小型,(2)同質のピアノデータセットにおける微細な意味的区別を捉えるために最適化された組込みフレームワークにおいて,マルチソーストレーニングとモダリティ利用の戦略を体系的に検討する。
実験の結果,ピアノBindはピアノ音楽の微妙なニュアンスを効果的に捉えたマルチモーダル表現を学習し,汎用的な音楽関節埋め込みモデルと比較して,ドメイン内および外部のピアノデータセット上でのテキスト間検索性能に優れていた。
さらに,ピアノ以外の同質なデータセットを用いたマルチモーダル表現学習のための再利用可能な洞察を提供する。
関連論文リスト
- Advancing the Foundation Model for Music Understanding [9.210248657997687]
総合音楽理解のための基礎モデル MuFun を導入する。
我々のモデルは、楽器と歌詞のコンテンツを共同で処理する新しいアーキテクチャを特徴としている。
また,MuCUEと呼ばれる多面的音楽理解のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-08-02T03:33:47Z) - Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - From Generality to Mastery: Composer-Style Symbolic Music Generation via Large-Scale Pre-training [4.7205815347741185]
広義のコーパスから学んだ一般的な音楽知識が、特定の作曲家スタイルの熟達度をいかに高めるかを検討する。
まず、ポップ、フォーク、クラシック音楽の大規模なコーパス上で、REMIベースの音楽生成モデルを事前訓練する。
そして、Bach、Mozart、Beethoven、Chopinの4人の著名な作曲家による、人間によって検証された小さなデータセットに、それを微調整します。
論文 参考訳(メタデータ) (2025-06-20T22:20:59Z) - Unifying Multitrack Music Arrangement via Reconstruction Fine-Tuning and Efficient Tokenization [10.714947060480426]
本稿では,無条件および条件付きシンボル音楽生成のための効率的なマルチトラック音楽トークンについて紹介する。
事前学習された音楽用LMのシーケンス・ツー・シーケンス再構成の微調整目的は、タスク固有のニーズとコヒーレンス制約とのバランスをとる。
提案手法は,目標と知覚品質の両面において,タスク固有モデルを超え,バンドアレンジメント,ピアノアレンジメント,ドラムアレンジメントの最先端結果を実現する。
論文 参考訳(メタデータ) (2024-08-27T16:18:51Z) - PianoBART: Symbolic Piano Music Generation and Understanding with Large-Scale Pre-Training [8.484581633133542]
PianoBARTは、BARTを象徴的なピアノ音楽の生成と理解の両方に使用する事前訓練されたモデルである。
我々は,PanoBARTの事前学習タスクに対して,情報漏洩や損失を防止できる多レベルオブジェクト選択戦略を考案した。
実験により、ピアノBARTは効率よく音楽パターンを学習し、高品質なコヒーレントな作品を生成する際、優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-06-26T03:35:54Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Generative Modelling for Controllable Audio Synthesis of Expressive
Piano Performance [6.531546527140474]
ガウス混合変分オートエンコーダ(GM-VAE)に基づく可制御型ニューラルオーディオシンセサイザー
そこで本研究では,モデルが音声に対してきめ細かな形態変化を適用可能であることを実証する。
論文 参考訳(メタデータ) (2020-06-16T12:54:41Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。