論文の概要: SinTra: Learning an inspiration model from a single multi-track music
segment
- arxiv url: http://arxiv.org/abs/2204.09917v1
- Date: Thu, 21 Apr 2022 07:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 14:21:15.263771
- Title: SinTra: Learning an inspiration model from a single multi-track music
segment
- Title(参考訳): sintra: 単一のマルチトラック音楽セグメントからインスピレーションモデルを学ぶ
- Authors: Qingwei Song, Qiwei Sun, Dongsheng Guo, Haiyong Zheng
- Abstract要約: SinTraは、単一のマルチトラック音楽セグメントから学習できる自動回帰逐次生成モデルである。
我々は,SinTraが音楽変換器より十分な情報を得ることができることを示す。
- 参考スコア(独自算出の注目度): 6.841442146760313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose SinTra, an auto-regressive sequential generative
model that can learn from a single multi-track music segment, to generate
coherent, aesthetic, and variable polyphonic music of multi-instruments with an
arbitrary length of bar. For this task, to ensure the relevance of generated
samples and training music, we present a novel pitch-group representation.
SinTra, consisting of a pyramid of Transformer-XL with a multi-scale training
strategy, can learn both the musical structure and the relative positional
relationship between notes of the single training music segment. Additionally,
for maintaining the inter-track correlation, we use the convolution operation
to process multi-track music, and when decoding, the tracks are independent to
each other to prevent interference. We evaluate SinTra with both subjective
study and objective metrics. The comparison results show that our framework can
learn information from a single music segment more sufficiently than Music
Transformer. Also the comparison between SinTra and its variant, i.e., the
single-stage SinTra with the first stage only, shows that the pyramid structure
can effectively suppress overly-fragmented notes.
- Abstract(参考訳): 本稿では,複数トラックの単一セグメントから学習し,任意の長さのバーを持つ多節のコヒーレント,美的,可変多声楽曲を生成する,自己回帰型逐次生成モデルであるsintraを提案する。
本課題は,生成したサンプルの関連性を確保し,音楽の訓練を行うため,新しいピッチグループ表現を提案する。
マルチスケールのトレーニング戦略を持つtransformer-xlのピラミッドからなるsintraは、単一のトレーニング音楽セグメントの音符間の音楽構造と相対的な位置関係の両方を学習することができる。
さらに、トラック間の相関を維持するために、コンボリューション演算を用いてマルチトラック音楽を処理する。
SinTraを主観的研究と客観的指標の両方で評価した。
比較の結果,本フレームワークは音楽変換器よりも1つの音楽セグメントから情報を学習できることがわかった。
また、SinTraとその変種、すなわち1段目のSinTraと1段目のSinTraの比較は、ピラミッド構造が過度にフラグメントされた音符を効果的に抑制できることを示している。
関連論文リスト
- UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Musical Voice Separation as Link Prediction: Modeling a Musical
Perception Task as a Multi-Trajectory Tracking Problem [6.617487928813374]
本論文は,ポリフォニック音楽作品において,異なる相互作用する声,すなわちモノフォニック・メロディック・ストリームを分離する知覚的タスクを目標とする。
我々はこのタスクを、離散的な観測、すなわちピッチ時間空間における音符から、MTT(Multi-Trajectory Tracking)問題としてモデル化する。
提案手法では,音符毎に1つのノードを作成し,同じ音声/ストリームで連続している場合の2つの音符間のリンクを予測し,旋律的軌跡を分離することにより,楽譜からグラフを構築する。
論文 参考訳(メタデータ) (2023-04-28T13:48:00Z) - Comparision Of Adversarial And Non-Adversarial LSTM Music Generative
Models [2.569647910019739]
この研究は、MIDIデータに基づいて、リカレントニューラルネットワーク音楽作曲家の敵対的および非敵対的な訓練を実装し、比較する。
この評価は, 対人訓練がより審美的に楽しむ音楽を生み出すことを示唆している。
論文 参考訳(メタデータ) (2022-11-01T20:23:49Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。