論文の概要: Symphony Generation with Permutation Invariant Language Model
- arxiv url: http://arxiv.org/abs/2205.05448v1
- Date: Tue, 10 May 2022 13:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:12:21.862865
- Title: Symphony Generation with Permutation Invariant Language Model
- Title(参考訳): 置換不変言語モデルを用いたシンフォニー生成
- Authors: Jiafeng Liu, Yuanliang Dong, Zehua Cheng, Xinran Zhang, Xiaobing Li,
Feng Yu and Maosong Sun
- Abstract要約: 変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
- 参考スコア(独自算出の注目度): 57.75739773758614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a symbolic symphony music generation solution,
SymphonyNet, based on a permutation invariant language model. To bridge the gap
between text generation and symphony generation task, we propose a novel
Multi-track Multi-instrument Repeatable (MMR) representation with particular
3-D positional embedding and a modified Byte Pair Encoding algorithm (Music
BPE) for music tokens. A novel linear transformer decoder architecture is
introduced as a backbone for modeling extra-long sequences of symphony tokens.
Meanwhile, we train the decoder to learn automatic orchestration as a joint
task by masking instrument information from the input. We also introduce a
large-scale symbolic symphony dataset for the advance of symphony generation
research. Our empirical results show that our proposed approach can generate
coherent, novel, complex and harmonious symphony compared to human composition,
which is the pioneer solution for multi-track multi-instrument symbolic music
generation.
- Abstract(参考訳): 本稿では、置換不変言語モデルに基づくシンボリックシンフォニー音楽生成ソリューションであるsymphonynetを提案する。
テキスト生成と交響曲生成課題のギャップを埋めるため、特定の3次元位置埋め込みによるマルチトラックマルチインストゥルメント再現性(mmr)表現と、音楽トークンに対する修正バイトペア符号化アルゴリズム(music bpe)を提案する。
新しい線形変圧器デコーダアーキテクチャは、シンフォニートークンの長いシーケンスをモデル化するためのバックボーンとして導入された。
一方,入力から機器情報をマスキングすることで,協調作業として自動オーケストレーションを学ぶようにデコーダを訓練する。
また、シンフォニー生成研究の進展のために、大規模シンフォニーシンフォニーデータセットも導入する。
提案手法は,複数トラックのシンボリック音楽生成の先駆的ソリューションである人間構成と比較して,一貫性,新規,複雑,調和的な交響曲を生成できることを示す。
関連論文リスト
- UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - PerTok: Expressive Encoding and Modeling of Symbolic Musical Ideas and Variations [0.3683202928838613]
Cadenzaは、シンボリック・ミュージック・アイデアの表現的バリエーションを予測するための、新しい多段階生成フレームワークである。
提案するフレームワークは,1)コンストラクタと2)パフォーマの2段階からなる。
我々のフレームワークはミュージシャンにインスピレーションを与える目的で設計、研究、実装されている。
論文 参考訳(メタデータ) (2024-10-02T22:11:31Z) - YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation [15.9795868183084]
マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。
本稿では、マルチストラクチャメント音楽の書き起こし強化のためのモデルの組であるYourMT3+を紹介する。
実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。
論文 参考訳(メタデータ) (2024-07-05T19:18:33Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - From Words to Music: A Study of Subword Tokenization Techniques in
Symbolic Music Generation [1.9188864062289432]
サブワードのトークン化は、Transformerベースのモデルを用いたテキストベースの自然言語処理タスクで広く成功している。
楽後トークン化方式にサブワードトークン化を適用し,より長い曲を同時に生成できることを見出した。
本研究は,サブワードのトークン化が記号的音楽生成の有望な手法であり,作曲に広範な影響を及ぼす可能性を示唆している。
論文 参考訳(メタデータ) (2023-04-18T12:46:12Z) - An Empirical Evaluation of End-to-End Polyphonic Optical Music
Recognition [24.377724078096144]
ピアノと管弦楽の楽譜は多音節をしばしば示しており、これはその課題に第2の次元を付け加えている。
終端ポリフォニックOMRの2つの新しい定式化法を提案する。
我々は,マルチシーケンス検出デコーダであるRNNDecoderを用いて,新しい最先端性能を観察する。
論文 参考訳(メタデータ) (2021-08-03T22:04:40Z) - Spectrogram Inpainting for Interactive Generation of Instrument Sounds [1.7205106391379026]
個別の楽器音の生成は,音を反復的に形作る新しい独特な方法を導入し,インパインティングに基づく課題として捉えた。
最も重要なことは、私たちはインタラクティブなWebインターフェースをオープンソースにして、アーティストや実践者向けに、新しいクリエイティブな用途に開放することで音を変換します。
論文 参考訳(メタデータ) (2021-04-15T15:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。