論文の概要: PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation
- arxiv url: http://arxiv.org/abs/2411.08307v2
- Date: Wed, 04 Dec 2024 22:02:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:36:40.474058
- Title: PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation
- Title(参考訳): PerceiverS: 長期的表現型シンボリック音楽生成のための効果的セグメンテーションを用いたマルチスケール知覚器
- Authors: Yungang Yi, Weihua Li, Matthew Kuo, Quan Bai,
- Abstract要約: PerceiverS (Segmentation and Scale) はシンボリック音楽を作成するために設計された新しいアーキテクチャである。
本手法は,長期的構造的依存関係と短期的表現的詳細を同時に学習することにより,記号的音楽生成を促進する。
提案したモデルは,Maestroデータセットを用いて評価され,表現的ニュアンスによる従来の長さの音楽生成の改善を実証した。
- 参考スコア(独自算出の注目度): 5.201151187019607
- License:
- Abstract: AI-based music generation has progressed significantly in recent years. However, creating symbolic music that is both long-structured and expressive remains a considerable challenge. In this paper, we propose PerceiverS (Segmentation and Scale), a novel architecture designed to address this issue by leveraging both Effective Segmentation and Multi-Scale attention mechanisms. Our approach enhances symbolic music generation by simultaneously learning long-term structural dependencies and short-term expressive details. By combining cross-attention and self-attention in a Multi-Scale setting, PerceiverS captures long-range musical structure while preserving musical diversity. The proposed model has been evaluated using the Maestro dataset and has demonstrated improvements in generating music of conventional length with expressive nuances. The project demos and the generated music samples can be accessed through the link: https://perceivers.github.io
- Abstract(参考訳): 近年,AIによる音楽生成が著しく進展している。
しかし、長い構造と表現力を持った象徴的な音楽を作ることは大きな課題である。
本稿では,PerceiverS(セグメンテーションとスケール)を提案する。このアーキテクチャは,効果的セグメンテーションとマルチスケールアテンションの両方を活用することでこの問題に対処する。
本手法は,長期的構造的依存関係と短期的表現的詳細を同時に学習することにより,記号的音楽生成を促進する。
マルチスケール環境でのクロスアテンションと自己アテンションを組み合わせることで、PerceiverSは音楽の多様性を維持しながら長距離の音楽構造をキャプチャする。
提案したモデルは,Maestroデータセットを用いて評価され,従来の長さの楽曲を表現的ニュアンスで生成する手法の改良を実証した。
プロジェクトのデモと生成された音楽サンプルはリンクからアクセスできる。
関連論文リスト
- MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Structure-informed Positional Encoding for Music Generation [0.0]
トランスフォーマーを用いた音楽生成のための構造インフォームド位置符号化フレームワークを提案する。
我々は、次のステップ予測と伴奏生成という2つのシンボリックな音楽生成タスクでそれらをテストした。
提案手法は, 生成した部品の旋律的および構造的整合性を改善する。
論文 参考訳(メタデータ) (2024-02-20T13:41:35Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Graph-based Polyphonic Multitrack Music Generation [9.701208207491879]
本稿では,音楽のための新しいグラフ表現と,音楽グラフの構造と内容を別々に生成する深部変分オートエンコーダを提案する。
音楽グラフの構造と内容を分離することにより、特定のタイミングでどの楽器が演奏されているかを指定することで条件生成が可能となる。
論文 参考訳(メタデータ) (2023-07-27T15:18:50Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - MATT: A Multiple-instance Attention Mechanism for Long-tail Music Genre
Classification [1.8275108630751844]
不均衡音楽ジャンル分類は音楽情報検索(MIR)分野において重要な課題である。
既存のモデルのほとんどは、クラスバランスの音楽データセット用に設計されている。
末尾クラスを特定するために,MATT(Multi-Instance Attention)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-09-09T03:52:44Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。