論文の概要: From West to East: Who can understand the music of the others better?
- arxiv url: http://arxiv.org/abs/2307.09795v1
- Date: Wed, 19 Jul 2023 07:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 15:07:11.060403
- Title: From West to East: Who can understand the music of the others better?
- Title(参考訳): 西から東へ:誰が他人の音楽をよりよく理解できるのか?
- Authors: Charilaos Papaioannou, Emmanouil Benetos, Alexandros Potamianos
- Abstract要約: 我々は、異なる音楽文化間の類似性についての洞察を導き出すために、伝達学習手法を活用する。
西洋音楽の2つのデータセット、地中海東部の文化に由来する伝統的・民族的な2つのデータセット、インドの芸術音楽に属する2つのデータセットを使用します。
CNNベースの2つのアーキテクチャとTransformerベースのアーキテクチャを含む3つのディープオーディオ埋め込みモデルがトレーニングされ、ドメイン間で転送される。
- 参考スコア(独自算出の注目度): 91.78564268397139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in MIR have led to several benchmark deep learning models
whose embeddings can be used for a variety of downstream tasks. At the same
time, the vast majority of these models have been trained on Western pop/rock
music and related styles. This leads to research questions on whether these
models can be used to learn representations for different music cultures and
styles, or whether we can build similar music audio embedding models trained on
data from different cultures or styles. To that end, we leverage transfer
learning methods to derive insights about the similarities between the
different music cultures to which the data belongs to. We use two Western music
datasets, two traditional/folk datasets coming from eastern Mediterranean
cultures, and two datasets belonging to Indian art music. Three deep audio
embedding models are trained and transferred across domains, including two
CNN-based and a Transformer-based architecture, to perform auto-tagging for
each target domain dataset. Experimental results show that competitive
performance is achieved in all domains via transfer learning, while the best
source dataset varies for each music culture. The implementation and the
trained models are both provided in a public repository.
- Abstract(参考訳): MIRの最近の進歩は、様々な下流タスクに埋め込みを使用可能な、いくつかのベンチマークディープラーニングモデルにつながっている。
同時に、これらのモデルの大半は西洋のポップ/ロック音楽と関連するスタイルで訓練されている。
このことは、これらのモデルが異なる音楽文化やスタイルの表現を学ぶのに使えるのか、あるいは異なる文化やスタイルのデータに基づいてトレーニングされた類似の音楽オーディオ埋め込みモデルを構築することができるのか、という研究結果につながる。
この目的のために,データと異なる音楽文化の類似性についての洞察を得るために,転送学習手法を活用する。
2つの西洋音楽データセット、東地中海文化からの伝統的な/フォークのデータセット、インド芸術音楽に属する2つのデータセットを使用します。
CNNベースの2つのアーキテクチャとTransformerベースのアーキテクチャを含む3つのディープオーディオ埋め込みモデルがトレーニングされ、ドメイン間で転送される。
実験結果から,音楽文化ごとに最適な音源データセットが異なり,すべての領域で伝達学習によって競争性能が向上することが示された。
実装とトレーニングされたモデルはどちらもパブリックリポジトリで提供される。
関連論文リスト
- Music for All: Exploring Multicultural Representations in Music Generation Models [13.568559786822457]
本稿では,音楽生成のためのデータセットと研究論文について述べる。
既存の音楽データセットの合計時間のうち、西洋以外のジャンルから得られる時間はわずか5.7%である。
論文 参考訳(メタデータ) (2025-02-11T07:46:29Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。
このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。
我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文 参考訳(メタデータ) (2023-12-14T18:38:02Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Listener Modeling and Context-aware Music Recommendation Based on
Country Archetypes [10.19712238203935]
音楽の好みは、リスナーの文化的・社会経済的背景によって強く形作られています。
我々は、最先端の教師なし学習技術を用いて、楽曲のきめ細かいレベルにおける音楽嗜好の国別プロファイルを調査する。
暗黙的なユーザフィードバックを活用する,コンテキスト対応の音楽レコメンデーションシステムを提案する。
論文 参考訳(メタデータ) (2020-09-11T17:59:04Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。