論文の概要: Self-Supervised Hierarchical Metrical Structure Modeling
- arxiv url: http://arxiv.org/abs/2210.17183v1
- Date: Mon, 31 Oct 2022 10:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 20:08:52.264711
- Title: Self-Supervised Hierarchical Metrical Structure Modeling
- Title(参考訳): 自己監督型階層構造モデリング
- Authors: Junyan Jiang and Gus Xia
- Abstract要約: 本稿では,記号的音楽信号と音声信号の両方に対する階層的距離構造をモデル化する新しい手法を提案する。
モデルはビート整列音楽信号のトレーニングと推測を行い、ビートからセクションレベルまで8層階層の計量木を予測する。
すべてのデモ、ソースコード、事前訓練されたモデルはGitHubで公開されている。
- 参考スコア(独自算出の注目度): 3.167685495996986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel method to model hierarchical metrical structures for both
symbolic music and audio signals in a self-supervised manner with minimal
domain knowledge. The model trains and inferences on beat-aligned music signals
and predicts an 8-layer hierarchical metrical tree from beat, measure to the
section level. The training procedural does not require any hierarchical
metrical labeling except for beats, purely relying on the nature of metrical
regularity and inter-voice consistency as inductive biases. We show in
experiments that the method achieves comparable performance with supervised
baselines on multiple metrical structure analysis tasks on both symbolic music
and audio signals. All demos, source code and pre-trained models are publicly
available on GitHub.
- Abstract(参考訳): 本稿では,シンボリック音楽と音声信号の階層的距離構造を,最小限のドメイン知識で自己教師あり方式でモデル化する新しい手法を提案する。
モデルはビート調整された音楽信号の訓練と推論を行い、ビートからセクションレベルまで8層階層的メトリックツリーを予測する。
訓練手続きはビートを除いて階層的な計量的ラベリングを必要とせず、純粋に計量的正則性の性質と帰納的バイアスとしての音声間の一貫性に依存する。
本手法は,シンボリックな音楽信号と音声信号の両方において,複数の計量構造解析タスクにおいて教師付きベースラインと同等の性能が得られることを示す。
すべてのデモ、ソースコード、事前訓練されたモデルはGitHubで公開されている。
関連論文リスト
- Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models [5.736540322759929]
我々は,作曲階層の実現の下で,完全な楽曲をモデル化する最初の試みを行う。
ハイレベル言語は全曲形式、フレーズ、ケイデンスを示し、低レベル言語は音符、和音、およびそれらの局所パターンに焦点を当てている。
実験と分析により,我々のモデルは,グローバルなヴァースコーラス構造とケイデンスを認識可能なフルピース音楽を生成することができることを示した。
論文 参考訳(メタデータ) (2024-05-16T08:48:23Z) - Structure-informed Positional Encoding for Music Generation [0.0]
トランスフォーマーを用いた音楽生成のための構造インフォームド位置符号化フレームワークを提案する。
我々は、次のステップ予測と伴奏生成という2つのシンボリックな音楽生成タスクでそれらをテストした。
提案手法は, 生成した部品の旋律的および構造的整合性を改善する。
論文 参考訳(メタデータ) (2024-02-20T13:41:35Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Learning Hierarchical Metrical Structure Beyond Measures [3.7294116330265394]
階層構造アノテーションは、音楽情報検索とコンピュータ音楽学に役立つ。
スコアから階層的メートル法構造を自動的に抽出するデータ駆動手法を提案する。
提案手法は,異なるオーケストレーション環境下でのルールベースアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-09-21T11:08:52Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Noisy Labels Can Induce Good Representations [53.47668632785373]
アーキテクチャがノイズラベルによる学習に与える影響について検討する。
ノイズラベルを用いたトレーニングは,モデルが一般化に乏しい場合でも,有用な隠れ表現を誘導できることを示す。
この発見は、騒々しいラベルで訓練されたモデルを改善する簡単な方法につながります。
論文 参考訳(メタデータ) (2020-12-23T18:58:05Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - A Framework for Generative and Contrastive Learning of Audio
Representations [2.8935588665357077]
本研究では,音声表現のためのコントラスト学習フレームワークを提案する。
また、音声信号の潜在空間を学習するために、アートトランスフォーマーに基づくアーキテクチャの状態に基づく生成モデルについても検討する。
本システムは,ニューラルネットワークモデルをトレーニングするために,地上の真理ラベルにアクセス可能な完全教師付き手法と比較して,かなりの性能を実現している。
論文 参考訳(メタデータ) (2020-10-22T05:52:32Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。