論文の概要: SymphonyGen: 3D Hierarchical Orchestral Generation with Controllable Harmony Skeleton
- arxiv url: http://arxiv.org/abs/2604.25498v1
- Date: Tue, 28 Apr 2026 11:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.829275
- Title: SymphonyGen: 3D Hierarchical Orchestral Generation with Controllable Harmony Skeleton
- Title(参考訳): SymphonyGen:制御可能なハーモニー骨格を用いた3次元階層オーケストラ生成
- Authors: Xuzheng He, Nan Nan, Zhilin Wang, Ziyue Kang, Zhuoru Mo, Ao Li, Yu Pan, Xiaobing Li, Feng Yu, Xiaohong Guan,
- Abstract要約: SymphonyGenは、撮影オーケストレーションのための3D階層的なフレームワークである。
ビート量子化マルチボイスハーモニースケルトンを用いた「ショートスコア」コンディショニングを導入する。
我々は、意図しない音節衝突を抑制するために、不協和逆サンプリングアルゴリズムを実装した。
- 参考スコア(独自算出の注目度): 26.272034375469943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating symphonic music requires simultaneously managing high-level structural form and dense, multi-track orchestration. Existing symbolic models often struggle with a "complexity-control imbalance", in which scaling bottlenecks limit long-term granular steerability. We present SymphonyGen, a 3D hierarchical framework for contemporary cinematic orchestration. SymphonyGen employs a cascading decoder architecture that decomposes the Bar, Track, and Event axes, improving computational efficiency and scalability over conventional 1D or 2D models. We introduce "short-score" conditioning via a beat-quantized multi-voice harmony skeleton, enabling outline control while preserving textural diversity. The model is further refined using Group Relative Policy Optimization (GRPO) with a cross-modal audio-perceptual reward, aligning symbolic output with modern acoustic expectations. Additionally, we implement a dissonance-averse sampling algorithm to suppress unintended tonal clashes during inference. Objective evaluations show that both reinforcement learning and dissonance-averse sampling effectively enhance harmonic cleanliness while maintaining melodic expression. Subjective evaluations demonstrate that SymphonyGen outperforms baselines in musicality and preference for orchestral music generation. Demo page: https://symphonygen.github.io/
- Abstract(参考訳): 交響曲を生成するには、高いレベルの構造体と密集した多トラックのオーケストレーションを同時に管理する必要がある。
既存のシンボリックモデルは「複雑度制御の不均衡」に苦しむことが多く、スケーリングのボトルネックは長期的な粒度のステアビリティを制限する。
現代映画のオーケストレーションのための3次元階層的枠組みであるSymphonyGenを紹介する。
SymphonyGenは、バル、トラック、イベント軸を分解するカスケードデコーダアーキテクチャを採用し、従来の1Dモデルや2Dモデルよりも計算効率とスケーラビリティを向上させる。
テキストの多様性を保ちながらアウトライン制御を可能にしたビート量子化マルチボイスハーモニースケルトンによる「ショートスコア」コンディショニングを導入する。
モデルはさらに、グループ相対ポリシー最適化(GRPO)を用いて、モダンな音響予測とシンボリックアウトプットを整合させた、クロスモーダルな音声知覚報酬を用いて洗練されている。
さらに,推論中の意図しない音節衝突を抑制するために,不協和逆サンプリングアルゴリズムを実装した。
目的評価では, 強化学習と不協和逆サンプリングの両方が, メロディック表現を維持しつつ, 調和的清浄性を効果的に向上させることが示されている。
主観評価により、SymphonyGenは、オーケストラ音楽生成の楽譜性や好みにおいて、ベースラインを上回っていることが示された。
デモページ:https://symphonygen.github.io/
関連論文リスト
- Anchored Cyclic Generation: A Novel Paradigm for Long-Sequence Symbolic Music Generation [5.110814852946552]
本稿では,すでに特定されている音楽のアンカー機能を利用したアンコールサイクル生成(ACG)パラダイムを提案する。
ACGパラダイムに基づいた階層型アンコールサイクル生成(Hi-ACG)フレームワークを提案する。
長いシーケンスのシンボリックな音楽生成タスクにおいて、Hi-ACGフレームワークは主観的および客観的評価において既存の主流手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-04-07T02:29:43Z) - PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation [57.864929968616586]
Video-to-Audio (V2A) の生成には、4つの重要な知覚次元のバランスが必要である。
私たちは、強化学習をV2A世代に統合する最初のフレームワークであるPrismAudioを紹介します。
論文 参考訳(メタデータ) (2025-11-24T07:11:12Z) - Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - SmoothSinger: A Conditional Diffusion Model for Singing Voice Synthesis with Multi-Resolution Architecture [3.7937714754535503]
SmoothSingerは高品質で自然な歌声を合成するための条件拡散モデルである。
低品質の合成オーディオを統一されたフレームワークで直接洗練し、2段階のパイプラインに関連する劣化を緩和する。
大規模な中国語歌唱コーパスであるOpencpopデータセットの実験は、SmoothSingerが最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2025-06-26T17:07:45Z) - MotionRAG-Diff: A Retrieval-Augmented Diffusion Framework for Long-Term Music-to-Dance Generation [10.203209816178552]
MotionRAG-Diffは、Retrieval-Augmented Generationと拡散に基づく改善を統合するハイブリッドフレームワークである。
我々の手法は3つの中核的な革新をもたらす。
動作品質、多様性、音楽-モーション同期の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-03T09:12:48Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Symphonize 3D Semantic Scene Completion with Contextual Instance Queries [49.604907627254434]
3Dセマンティック・シーン・コンプリート(SSC)は、自動運転における初期段階かつ重要な取り組みとして登場した。
本稿では,2次元から3次元の再構成と3次元のシーンモデリングを統括するインスタンスクエリの統合を目的とした,シンフォニー(Scene-from-Insts)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-27T17:59:46Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Hierarchical Recurrent Neural Networks for Conditional Melody Generation
with Long-term Structure [0.0]
階層型リカレントニューラルネットワークを用いた条件付きメロディ生成モデルを提案する。
このモデルは、与えられたコード伴奏に基づいて長期構造を持つメロディーを生成する。
聴取試験の結果,CM-HRNNは長期的構造と総合評価においてアテンションRNNよりも優れていた。
論文 参考訳(メタデータ) (2021-02-19T08:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。