論文の概要: SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation
- arxiv url: http://arxiv.org/abs/2603.01101v1
- Date: Sun, 01 Mar 2026 13:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.511315
- Title: SyncTrack: Rhythmic Stability and Synchronization in Multi-Track Music Generation
- Title(参考訳): SyncTrack:マルチトラック音楽生成におけるリズム安定性と同期
- Authors: Hongrui Wang, Fan Zhang, Zhiyuan Yu, Ziya Zhou, Xi Chen, Can Yang, Yang Wang,
- Abstract要約: 同期型マルチトラック波形生成モデルSyncTrackを導入する。
トラックシェアリングモジュールは、すべてのトラックとトラック固有のモジュールで共通のリズムを確立し、様々な音色とピッチ範囲に対応している。
実験により、SyncTrackはリズム整合性を向上させることにより、マルチトラック音楽の質を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 11.204334004390043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-track music generation has garnered significant research interest due to its precise mixing and remixing capabilities. However, existing models often overlook essential attributes such as rhythmic stability and synchronization, leading to a focus on differences between tracks rather than their inherent properties. In this paper, we introduce SyncTrack, a synchronous multi-track waveform music generation model designed to capture the unique characteristics of multi-track music. SyncTrack features a novel architecture that includes track-shared modules to establish a common rhythm across all tracks and track-specific modules to accommodate diverse timbres and pitch ranges. Each track-shared module employs two cross-track attention mechanisms to synchronize rhythmic information, while each track-specific module utilizes learnable instrument priors to better represent timbre and other unique features. Additionally, we enhance the evaluation of multi-track music quality by introducing rhythmic consistency through three novel metrics: Inner-track Rhythmic Stability (IRS), Cross-track Beat Synchronization (CBS), and Cross-track Beat Dispersion (CBD). Experiments demonstrate that SyncTrack significantly improves the multi-track music quality by enhancing rhythmic consistency.
- Abstract(参考訳): マルチトラック音楽生成は、その正確なミキシングとリミックス能力のために、大きな研究の関心を集めている。
しかし、既存のモデルはリズミカル安定性や同期のような重要な特性を見落とし、その性質よりもトラック間の差異に焦点をあてる。
本稿では,同期型マルチトラック波形生成モデルSyncTrackについて紹介する。
SyncTrackは、トラック共有モジュールを含む新しいアーキテクチャを備えており、すべてのトラックに共通するリズムを確立し、トラック固有のモジュールは様々な音色やピッチレンジに対応している。
各トラック共有モジュールはリズム情報を同期するために2つのクロストラックアテンション機構を使用し、各トラック固有モジュールは学習可能な楽器の事前を使用して音色やその他のユニークな特徴を表現している。
さらに、内部トラックリズム安定性(IRS)、クロストラックビート同期(CBS)、クロストラックビート分散(CBD)の3つの新しい指標を用いて、リズム整合性を導入することで、マルチトラック音楽品質の評価を強化する。
実験により、SyncTrackはリズム整合性を向上させることにより、マルチトラック音楽の質を大幅に向上することが示された。
関連論文リスト
- Tempo as the Stable Cue: Hierarchical Mixture of Tempo and Beat Experts for Music to 3D Dance Generation [62.82943523102]
音楽から3Dのダンス生成は、リアルでリズミカルに同期された人間のダンスを音楽から合成することを目的としている。
本研究では,階層的なテンポ認識型Mixture-of-ExpertsモジュールであるTempoMoEを提案する。
本研究では,TempoMoEがダンスの質とリズムアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-12-21T16:57:08Z) - GACA-DiT: Diffusion-based Dance-to-Music Generation with Genre-Adaptive Rhythm and Context-Aware Alignment [16.93446224499017]
ダンス・トゥ・ミュージック・ジェネレーション(D2M)は、リズムと時間的にダンスの動きに合わせた音楽を自動的に合成することを目的としている。
リズム整合性と時間整合性を有する音楽生成のための2つの新しいモジュールを備えた拡散トランスフォーマーベースのフレームワークである textbfGACA-DiT を提案する。
AIST++とTikTokデータセットの実験では、GACA-DiTは客観的メトリクスと人的評価の両方で最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-10-28T09:26:59Z) - Samba: Synchronized Set-of-Sequences Modeling for Multiple Object Tracking [97.25156823720211]
協調ダンスパフォーマンスやチームスポーツ、動的動物グループといった複雑なシナリオにおける複数のオブジェクト追跡は、ユニークな課題を提示します。
複数トラックレットを共同処理するために設計された新しい線形時間集合列モデルであるSambaを紹介する。
Sambaは、同期した長期メモリ表現を維持しながら、各シーケンスの将来のトラッククエリを自動的に予測する。
本研究では、不確実な観測(MaskObs)を扱うための効果的な手法と、より長いシーケンスにSambaMOTRをスケールするための効率的なトレーニングレシピを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:59:57Z) - BandCondiNet: Parallel Transformers-based Conditional Popular Music Generation with Multi-View Features [21.148033414075723]
BandCondiNetは並列トランスフォーマーに基づく条件付きモデルであり、高品質なマルチトラックサンプルを生成する。
BandCondiNetの特殊なモジュール: 音楽構造を強化するための構造拡張アテンション(SEA)と、トラック間の調和を強化するためのクロストラックトランスフォーマー(CTT)である。
短いデータセットの客観的な結果は、BandCondiNetがフィリティと推論速度に関連する10の指標のうち9の条件付きモデルを上回っていることを示している。
長いデータセットでは、BandCondiNetが10のメトリクスすべてにわたる条件付きモデルをすべて上回っている。
論文 参考訳(メタデータ) (2024-07-15T06:33:25Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation [18.979064278674276]
JEN-1 Composerは、マルチトラック音楽上での限界分布、条件分布、共同分布を効率的にモデル化するように設計されている。
本研究では、段階的なカリキュラム学習戦略を導入し、段階的に訓練作業の難しさを増大させる。
提案手法は,制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-29T22:51:49Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Multitrack Music Transformer [36.91519546327085]
短いシーケンス長を維持しながら多様な楽器のセットを表現できる新しいマルチトラック音楽表現を提案する。
提案するMultitrack Music Transformer (MMT) は,最先端システムと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-07-14T15:06:37Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - MMM : Exploring Conditional Multi-Track Music Generation with the
Transformer [9.569049935824227]
マルチトラック音楽を生成することができるトランスフォーマーアーキテクチャに基づく生成システムを提案する。
我々は、各トラックといくつかのトラックについて、時間順に順序付けされた音楽イベントのシーケンスを1つのシーケンスに生成する。
これによりTransformerの注意機構が利用でき、長期的依存関係を十分に処理できる。
論文 参考訳(メタデータ) (2020-08-13T02:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。