論文の概要: Multitrack Music Transformer: Learning Long-Term Dependencies in Music
with Diverse Instruments
- arxiv url: http://arxiv.org/abs/2207.06983v1
- Date: Thu, 14 Jul 2022 15:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 13:40:30.559712
- Title: Multitrack Music Transformer: Learning Long-Term Dependencies in Music
with Diverse Instruments
- Title(参考訳): マルチトラック音楽変換器:多変量器を用いた音楽の長期依存学習
- Authors: Hao-Wen Dong, Ke Chen, Shlomo Dubnov, Julian McAuley, Taylor
Berg-Kirkpatrick
- Abstract要約: 短い列の長さを維持しながら多種多様な楽器の集合を表現できるコンパクト表現を提案する。
提案した表現を用いて,マルチトラック音楽の長期依存を学習するためのMTMT(Multitrack Music Transformer)を提案する。
- 参考スコア(独自算出の注目度): 36.91519546327085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing approaches for generating multitrack music with transformer models
have been limited to either a small set of instruments or short music segments.
This is partly due to the memory requirements of the lengthy input sequences
necessitated by existing representations for multitrack music. In this work, we
propose a compact representation that allows a diverse set of instruments while
keeping a short sequence length. Using our proposed representation, we present
the Multitrack Music Transformer (MTMT) for learning long-term dependencies in
multitrack music. In a subjective listening test, our proposed model achieves
competitive quality on unconditioned generation against two baseline models. We
also show that our proposed model can generate samples that are twice as long
as those produced by the baseline models, and, further, can do so in half the
inference time. Moreover, we propose a new measure for analyzing musical
self-attentions and show that the trained model learns to pay less attention to
notes that form a dissonant interval with the current note, yet attending more
to notes that are 4N beats away from current. Finally, our findings provide a
novel foundation for future work exploring longer-form multitrack music
generation and improving self-attentions for music. All source code and audio
samples can be found at https://salu133445.github.io/mtmt/ .
- Abstract(参考訳): トランスフォーマーモデルによるマルチトラック音楽を生成するための既存のアプローチは、小さな楽器セットか短い音楽セグメントに限られている。
これは、マルチトラック音楽の既存の表現を必要とする長い入力シーケンスのメモリ要件による部分がある。
本研究では,短いシーケンス長を維持しつつ,多様な楽器セットを可能にするコンパクト表現を提案する。
提案した表現を用いて,マルチトラック音楽の長期依存を学習するためのMTMT(Multitrack Music Transformer)を提案する。
主観的リスニングテストでは,提案モデルが2つのベースラインモデルに対して無条件生成の競合品質を達成する。
また,提案モデルでは,ベースラインモデルが生成する2倍の長さのサンプルを生成でき,さらに推論時間の半分でそのサンプルを生成できることを示した。
さらに,音楽的自己注意の分析のための新しい尺度を提案し,学習したモデルが,現在の音符と不協和区間を形成する音符に注意を払わないように学習し,さらに4n拍子の音符を電流から遠ざけるようにした。
最後に,本研究は,より長期のマルチトラック音楽生成と音楽の自己意識向上に向けた新たな研究基盤を提供する。
すべてのソースコードとオーディオサンプルはhttps://salu133445.github.io/mtmt/で確認できる。
関連論文リスト
- Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - MSTRE-Net: Multistreaming Acoustic Modeling for Automatic Lyrics
Transcription [8.669338893753885]
本稿では,自動翻訳(ALT)研究にいくつかの貢献を行う。
我々の主な貢献はMSTRE-Netと呼ばれるMultistreaming Time-Delay Neural Network (MTDNN)アーキテクチャの新しい変種である。
本稿では,ALTで使用されている既存のデータセットと比較して,かなり大きなサイズと高い音楽的変動性を持つ新しいテストセットを提案する。
論文 参考訳(メタデータ) (2021-08-05T13:59:11Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - MMM : Exploring Conditional Multi-Track Music Generation with the
Transformer [9.569049935824227]
マルチトラック音楽を生成することができるトランスフォーマーアーキテクチャに基づく生成システムを提案する。
我々は、各トラックといくつかのトラックについて、時間順に順序付けされた音楽イベントのシーケンスを1つのシーケンスに生成する。
これによりTransformerの注意機構が利用でき、長期的依存関係を十分に処理できる。
論文 参考訳(メタデータ) (2020-08-13T02:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。