論文の概要: Anticipatory Music Transformer
- arxiv url: http://arxiv.org/abs/2306.08620v2
- Date: Thu, 25 Jul 2024 18:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 18:41:36.631686
- Title: Anticipatory Music Transformer
- Title(参考訳): 期待音楽変換器
- Authors: John Thickstun, David Hall, Chris Donahue, Percy Liang,
- Abstract要約: 本稿では、時間点過程の制御可能な生成モデルを構築する方法である予測を導入する。
コントロールはイベント自体のサブセットであるので、コントロールタスクの充実に重点を置いています。
大規模かつ多様なLakh MIDI音楽データセットを用いて予測入出力モデルを訓練する。
- 参考スコア(独自算出の注目度): 60.15347393822849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce anticipation: a method for constructing a controllable generative model of a temporal point process (the event process) conditioned asynchronously on realizations of a second, correlated process (the control process). We achieve this by interleaving sequences of events and controls, such that controls appear following stopping times in the event sequence. This work is motivated by problems arising in the control of symbolic music generation. We focus on infilling control tasks, whereby the controls are a subset of the events themselves, and conditional generation completes a sequence of events given the fixed control events. We train anticipatory infilling models using the large and diverse Lakh MIDI music dataset. These models match the performance of autoregressive models for prompted music generation, with the additional capability to perform infilling control tasks, including accompaniment. Human evaluators report that an anticipatory model produces accompaniments with similar musicality to even music composed by humans over a 20-second clip.
- Abstract(参考訳): 本稿では,第2の相関プロセス(制御プロセス)の実現に基づいて非同期に条件付けされた時間的ポイントプロセス(イベントプロセス)の制御可能な生成モデルを構築する方法を紹介する。
イベントシーケンスの停止時間に従って制御が現れるように、イベントとコントロールのシーケンスをインターリーブすることで、これを実現する。
この作品は、シンボリック・ミュージック・ジェネレーションの制御に生じる問題によって動機付けられている。
制御タスクは、制御自体がイベントのサブセットであり、条件付き生成は、固定された制御イベントが与えられたイベントのシーケンスを完了する。
大規模かつ多様なLakh MIDI音楽データセットを用いて予測入出力モデルを訓練する。
これらのモデルは、伴奏を含むインフィル制御タスクを実行する追加機能を備えた、インプット音楽生成のための自己回帰モデルのパフォーマンスにマッチする。
人間の評価者は、予測モデルが20秒のクリップで人間の作曲した音楽に類似した音楽の伴奏を生成すると報告している。
関連論文リスト
- MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - BandControlNet: Parallel Transformers-based Steerable Popular Music Generation with Fine-Grained Spatiotemporal Features [19.284531698181116]
BandControlNetは、複数の音楽シーケンスに対処し、与えられた時間的制御機能に合わせた高品質な音楽サンプルを生成するように設計されている。
提案したBandControlNetは、ほとんどの客観的指標において、忠実度と推論速度の点で他の条件付き音楽生成モデルよりも優れている。
短いデータセットでトレーニングされた主観評価は、最先端のモデルに匹敵する品質の音楽を生成できるが、BandControlNetでは大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-07-15T06:33:25Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Performance Conditioning for Diffusion-Based Multi-Instrument Music
Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。
パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。
試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文 参考訳(メタデータ) (2023-09-21T17:44:57Z) - Polyffusion: A Diffusion Model for Polyphonic Score Generation with
Internal and External Controls [5.597394612661976]
ポリフュージョン(Polyffusion)は、ポリフォニック音楽の楽譜を画像のようなピアノロール表現として生成する拡散モデルである。
内部および外部制御を用いることで、Polyffusionは幅広い音楽生成タスクを統一することを示す。
論文 参考訳(メタデータ) (2023-07-19T06:36:31Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - Conditional Generation of Temporally-ordered Event Sequences [29.44608199294757]
本稿では,イベントシーケンスの時間性だけでなく,イベント共起を捉えることができる条件生成モデルを提案する。
この単一モデルは、時間的順序付け、与えられたイベント列をそれらが発生した順序にソートすること、イベントを埋め込むことの両方に対処でき、既存のイベントの時間的順序付けシーケンスに適合する新しいイベントを予測できる。
論文 参考訳(メタデータ) (2020-12-31T18:10:18Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。