Fugu-MT 論文翻訳(概要): Multitrack Music Transformer

論文の概要: Multitrack Music Transformer

arxiv url: http://arxiv.org/abs/2207.06983v4
Date: Wed, 24 May 2023 20:49:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-27 00:04:34.708231
Title: Multitrack Music Transformer
Title（参考訳）: マルチトラック音楽変換器
Authors: Hao-Wen Dong, Ke Chen, Shlomo Dubnov, Julian McAuley, Taylor Berg-Kirkpatrick
Abstract要約: 短いシーケンス長を維持しながら多様な楽器のセットを表現できる新しいマルチトラック音楽表現を提案する。提案するMultitrack Music Transformer (MMT) は,最先端システムと同等の性能を実現する。
参考スコア（独自算出の注目度）: 36.91519546327085
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing approaches for generating multitrack music with transformer models have been limited in terms of the number of instruments, the length of the music segments and slow inference. This is partly due to the memory requirements of the lengthy input sequences necessitated by existing representations. In this work, we propose a new multitrack music representation that allows a diverse set of instruments while keeping a short sequence length. Our proposed Multitrack Music Transformer (MMT) achieves comparable performance with state-of-the-art systems, landing in between two recently proposed models in a subjective listening test, while achieving substantial speedups and memory reductions over both, making the method attractive for real time improvisation or near real time creative applications. Further, we propose a new measure for analyzing musical self-attention and show that the trained model attends more to notes that form a consonant interval with the current note and to notes that are 4N beats away from the current step.
Abstract（参考訳）: トランスフォーマーモデルでマルチトラック音楽を生成する既存のアプローチは、楽器の数、音楽セグメントの長さ、遅い推論などによって制限されている。これは、既存の表現を必要とする長い入力シーケンスのメモリ要求が原因である。本研究では,短いシーケンス長を維持しながら多種多様な楽器群を表現できる新しいマルチトラック音楽表現を提案する。提案するMultitrack Music Transformer (MMT) は,提案した2つのモデル間の主観的聴取試験を行い,両者の大幅な高速化とメモリ削減を実現し,リアルタイム即興性やほぼリアルタイムなクリエイティブなアプリケーションに魅力的な手法である。さらに,音楽的自己注意の分析のための新しい尺度を提案し,訓練されたモデルが,現在の音符と子音間隔を形成する音符と,現在の音符から4Nの音符が遠ざかっていることを示す。

関連論文リスト

Steering Autoregressive Music Generation with Recursive Feature Machines [43.475981527010276]
MusicRFMはRecursive Feature Machines (RFM) に適応し、凍結した、事前訓練された音楽モデルに対してきめ細かな、解釈可能な制御を可能にするフレームワークである。 RFMはモデルの内部勾配を分析して解釈可能な「概念方向」を生成する動的・時間変化のスケジュールと複数の音楽特性の同時実施方法を含む,この制御の高度な機構について述べる。
論文参考訳（メタデータ） (2025-10-21T23:23:14Z)
BandControlNet: Parallel Transformers-based Steerable Popular Music Generation with Fine-Grained Spatiotemporal Features [19.284531698181116]
BandControlNetは、複数の音楽シーケンスに対処し、与えられた時間的制御機能に合わせた高品質な音楽サンプルを生成するように設計されている。提案したBandControlNetは、ほとんどの客観的指標において、忠実度と推論速度の点で他の条件付き音楽生成モデルよりも優れている。短いデータセットでトレーニングされた主観評価は、最先端のモデルに匹敵する品質の音楽を生成できるが、BandControlNetでは大幅にパフォーマンスが向上する。
論文参考訳（メタデータ） (2024-07-15T06:33:25Z)
Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文参考訳（メタデータ） (2024-05-27T22:15:23Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文参考訳（メタデータ） (2024-01-15T08:41:01Z)
Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文参考訳（メタデータ） (2023-06-19T08:58:26Z)
Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文参考訳（メタデータ） (2022-04-01T17:53:39Z)
A framework to compare music generative models using automatic evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文参考訳（メタデータ） (2021-01-19T15:04:46Z)
PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。 MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文参考訳（メタデータ） (2020-08-18T02:28:36Z)
MMM : Exploring Conditional Multi-Track Music Generation with the Transformer [9.569049935824227]
マルチトラック音楽を生成することができるトランスフォーマーアーキテクチャに基づく生成システムを提案する。我々は、各トラックといくつかのトラックについて、時間順に順序付けされた音楽イベントのシーケンスを1つのシーケンスに生成する。これによりTransformerの注意機構が利用でき、長期的依存関係を十分に処理できる。
論文参考訳（メタデータ） (2020-08-13T02:36:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。