論文の概要: ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio
- arxiv url: http://arxiv.org/abs/2408.00674v1
- Date: Thu, 1 Aug 2024 16:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 20:06:59.355321
- Title: ChordSync: Conformer-Based Alignment of Chord Annotations to Music Audio
- Title(参考訳): コードシンク:コンフォーマーによる音楽オーディオへのコードアノテーションのアライメント
- Authors: Andrea Poltronieri, Valentina Presutti, Martín Rocamora,
- Abstract要約: ChordSyncはコンバータベースのモデルで、コードアノテーションとオーディオトラックをシームレスにアライメントするように設計されている。
また,事前に訓練されたモデルとユーザフレンドリーなライブラリを提供し,コードアノテーションとオーディオトラックをシームレスに同期させることができる。
- 参考スコア(独自算出の注目度): 0.48226434581895755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the Western music tradition, chords are the main constituent components of harmony, a fundamental dimension of music. Despite its relevance for several Music Information Retrieval (MIR) tasks, chord-annotated audio datasets are limited and need more diversity. One way to improve those resources is to leverage the large number of chord annotations available online, but this requires aligning them with music audio. However, existing audio-to-score alignment techniques, which typically rely on Dynamic Time Warping (DTW), fail to address this challenge, as they require weakly aligned data for precise synchronisation. In this paper, we introduce ChordSync, a novel conformer-based model designed to seamlessly align chord annotations with audio, eliminating the need for weak alignment. We also provide a pre-trained model and a user-friendly library, enabling users to synchronise chord annotations with audio tracks effortlessly. In this way, ChordSync creates opportunities for harnessing crowd-sourced chord data for MIR, especially in audio chord estimation, thereby facilitating the generation of novel datasets. Additionally, our system extends its utility to music education, enhancing music learning experiences by providing accurately aligned annotations, thus enabling learners to engage in synchronised musical practices.
- Abstract(参考訳): 西洋音楽の伝統では、和声の主要な構成要素は和声であり、音楽の基本的次元である。
音楽情報検索(MIR)タスクの関連性にもかかわらず、コード付きオーディオデータセットは制限されており、より多様性が必要である。
これらのリソースを改善する方法のひとつは,オンラインで利用可能な多数のコードアノテーションを活用することだ。
しかし、ダイナミック・タイム・ウォーピング(DTW)に依存している既存のオーディオ・スコアアライメント技術は、正確な同期のために弱い整列データを必要とするため、この問題に対処することができない。
本稿では,コードアノテーションと音声をシームレスにアライメントする新しいコンストラクタモデルであるChordSyncを紹介し,アライメントの弱さを解消する。
また,事前に訓練されたモデルとユーザフレンドリーなライブラリを提供し,コードアノテーションとオーディオトラックをシームレスに同期させることができる。
このようにして、ChordSyncは、特に音声コード推定において、クラウドソースのコードデータを利用する機会を生み出し、新しいデータセットの生成を容易にする。
さらに,本システムは音楽教育への活用を拡大し,正確なアノテーションを提供することで音楽学習体験を向上し,学習者が同期音楽の実践を行うことを可能にする。
関連論文リスト
- Audio-to-Score Conversion Model Based on Whisper methodology [0.0]
この論文は、音楽情報をトークンに変換するカスタム表記システムである"Orpheus' Score"を革新的に導入している。
実験によると、従来のアルゴリズムと比較して、モデルは精度と性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-10-22T17:31:37Z) - MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。
条件信号として自動的に抽出されたリズムとコードを統合する。
MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-21T05:27:53Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Towards Context-Aware Neural Performance-Score Synchronisation [2.0305676256390934]
音楽の同期は、音楽の複数の表現を統一的にナビゲートする手段を提供する。
従来の同期手法は知識駆動と性能分析のアプローチを用いてアライメントを計算する。
このPhDは、データ駆動型コンテクスト対応アライメントアプローチの提案により、パフォーマンススコア同期の研究をさらに進める。
論文 参考訳(メタデータ) (2022-05-31T16:45:25Z) - Differential Music: Automated Music Generation Using LSTM Networks with
Representation Based on Melodic and Harmonic Intervals [0.0]
本稿では,LSTMネットワークを用いた自動作曲のための生成AIモデルを提案する。
絶対的なピッチではなく音楽の動きに基づく音楽情報の符号化に新しいアプローチをとる。
実験結果は、音楽やトーンを聴くと約束を示す。
論文 参考訳(メタデータ) (2021-08-23T23:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。