論文の概要: The Music Annotation Pattern
- arxiv url: http://arxiv.org/abs/2304.00988v1
- Date: Thu, 30 Mar 2023 11:13:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 15:12:17.005345
- Title: The Music Annotation Pattern
- Title(参考訳): 音楽アノテーションのパターン
- Authors: Jacopo de Berardinis, Albert Mero\~no-Pe\~nuela, Andrea Poltronieri,
Valentina Presutti
- Abstract要約: 我々は,様々なアノテーションシステムを均質化し,様々な種類の音楽オブジェクトを表現するために,オントロジーデザインパターン(ODP)である音楽パターンを紹介する。
我々のODPは、様々なソースから派生したアノテーションを記述するために、マルチモーダリティを前もって説明しており、大規模な音楽データセットの統合を可能にするのは、これが初めてである。
- 参考スコア(独自算出の注目度): 1.2043574473965315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The annotation of music content is a complex process to represent due to its
inherent multifaceted, subjectivity, and interdisciplinary nature. Numerous
systems and conventions for annotating music have been developed as independent
standards over the past decades. Little has been done to make them
interoperable, which jeopardises cross-corpora studies as it requires users to
familiarise with a multitude of conventions. Most of these systems lack the
semantic expressiveness needed to represent the complexity of the musical
language and cannot model multi-modal annotations originating from audio and
symbolic sources. In this article, we introduce the Music Annotation Pattern,
an Ontology Design Pattern (ODP) to homogenise different annotation systems and
to represent several types of musical objects (e.g. chords, patterns,
structures). This ODP preserves the semantics of the object's content at
different levels and temporal granularity. Moreover, our ODP accounts for
multi-modality upfront, to describe annotations derived from different sources,
and it is the first to enable the integration of music datasets at a large
scale.
- Abstract(参考訳): 音楽コンテンツの注釈は、その固有の多面的、主観的、学際的な性質のために表現する複雑なプロセスである。
過去数十年間、アノテート音楽のための多くのシステムや慣習が独立した標準として開発されてきた。
相互運用可能にするためにはほとんど行われていないが、多くの慣習に慣れる必要があるため、クロスコーパス研究を危険にさらしている。
これらのシステムの多くは、音楽言語の複雑さを表現するのに必要な意味表現力に欠けており、オーディオやシンボリックソースから派生したマルチモーダルアノテーションをモデル化することはできない。
本稿では,異なるアノテーション体系を均質化し,複数の種類の音楽オブジェクト(コード,パターン,構造など)を表現するために,オントロジーデザインパターン(ODP)である音楽アノテーションパターンを紹介する。
このODPは、オブジェクトの内容の異なるレベルと時間的粒度のセマンティクスを保存する。
また,音楽データセットの統合を大規模に実現した最初の事例として,異なるソースからのアノテーションを記述するため,odpはマルチモダリティを前もって考慮している。
関連論文リスト
- PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation [5.201151187019607]
PerceiverS(セグメンテーション・アンド・スケール)は、長い構造化された表現力のある音楽を生成するために設計された新しいアーキテクチャである。
本手法は,長期的構造的依存関係と短期的表現的詳細を同時に学習することにより,記号的音楽生成を促進する。
Maestroのようなデータセットで評価された提案モデルは、コヒーレントで多様な音楽を生成する改善を実証する。
論文 参考訳(メタデータ) (2024-11-13T03:14:10Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Practical and Reproducible Symbolic Music Generation by Large Language Models with Structural Embeddings [28.685224087199053]
音楽生成は、大きな言語モデルに難しい複雑さをもたらす。
1) トークン化は、通常、生のMIDIデータに欠けているバーやビートのようなドメイン固有のアノテーションを必要とします。
我々はMuseNetにインスパイアされたMIDIベースの音楽生成フレームワークを開発し、ドメイン固有のアノテーションに依存しない2つの構造的埋め込みを実証的に研究した。
論文 参考訳(メタデータ) (2024-07-29T11:24:10Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Mozart's Touch: A Lightweight Multi-modal Music Generation Framework Based on Pre-Trained Large Models [9.311353871322325]
Mozart's Touchは、画像、ビデオ、テキストなどのクロスプラットフォーム入力と整合した音楽を生成することができるフレームワークである。
従来のエンド・ツー・エンドの手法とは異なり、モーツァルト・タッチはLPMを使って音楽生成モデルの訓練や微調整を必要とせず、視覚要素を正確に解釈する。
論文 参考訳(メタデータ) (2024-05-05T03:15:52Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Graph-based Polyphonic Multitrack Music Generation [9.701208207491879]
本稿では,音楽のための新しいグラフ表現と,音楽グラフの構造と内容を別々に生成する深部変分オートエンコーダを提案する。
音楽グラフの構造と内容を分離することにより、特定のタイミングでどの楽器が演奏されているかを指定することで条件生成が可能となる。
論文 参考訳(メタデータ) (2023-07-27T15:18:50Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。