論文の概要: Explicit Tonal Tension Conditioning via Dual-Level Beam Search for Symbolic Music Generation
- arxiv url: http://arxiv.org/abs/2511.19342v1
- Date: Mon, 24 Nov 2025 17:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.346887
- Title: Explicit Tonal Tension Conditioning via Dual-Level Beam Search for Symbolic Music Generation
- Title(参考訳): シンボリック音楽生成のためのデュアルレベルビームサーチによる明示的緊張条件
- Authors: Maral Ebrahimzadeh, Gilberto Bernardes, Sebastian Stober,
- Abstract要約: 最先端の象徴的な音楽生成モデルは、最近顕著な出力品質を達成した。
本稿では,計算音調テンションモデルをトランスフォーマーフレームワークに統合する手法を提案する。
- 参考スコア(独自算出の注目度): 3.033196534183858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art symbolic music generation models have recently achieved remarkable output quality, yet explicit control over compositional features, such as tonal tension, remains challenging. We propose a novel approach that integrates a computational tonal tension model, based on tonal interval vector analysis, into a Transformer framework. Our method employs a two-level beam search strategy during inference. At the token level, generated candidates are re-ranked using model probability and diversity metrics to maintain overall quality. At the bar level, a tension-based re-ranking is applied to ensure that the generated music aligns with a desired tension curve. Objective evaluations indicate that our approach effectively modulates tonal tension, and subjective listening tests confirm that the system produces outputs that align with the target tension. These results demonstrate that explicit tension conditioning through a dual-level beam search provides a powerful and intuitive tool to guide AI-generated music. Furthermore, our experiments demonstrate that our method can generate multiple distinct musical interpretations under the same tension condition.
- Abstract(参考訳): 最先端の象徴的な音楽生成モデルは、最近、顕著な出力品質を達成したが、声調の緊張のような作曲的特徴に対する明確な制御は、依然として難しいままである。
本稿では,音節間隔ベクトル解析に基づく計算音調テンションモデルをトランスフォーマーフレームワークに統合する手法を提案する。
提案手法は,推定時に2段階のビーム探索戦略を用いる。
トークンレベルでは、生成された候補はモデル確率と多様性メトリクスを使用して再ランク付けされ、全体的な品質が維持される。
バーレベルでは、生成した音楽が所望の張力曲線に整合することを保証するために、テンションベースの再ランクが適用される。
客観的評価は,本手法が音節緊張を効果的に調節することを示し,主観的聴力試験により,対象の緊張と一致した出力を生成することを確認した。
これらの結果は、デュアルレベルビームサーチによる明示的な緊張条件付けが、AI生成音楽をガイドするための強力で直感的なツールを提供することを示している。
さらに,本手法が同じテンション条件下で複数の異なる音楽解釈を生成可能であることを示す。
関連論文リスト
- Pitch-Conditioned Instrument Sound Synthesis From an Interactive Timbre Latent Space [6.12877670327196]
本稿では,2段階の半教師あり学習フレームワークを用いたニューラル・インスツルメンツ・サウンド・シンセサイザーのための新しい手法を提案する。
本研究では、変分オートエンコーダを用いて、音声サンプルのピッチ・音色不整形2次元表現を訓練する。
我々はこの表現をトランスフォーマーに基づく生成モデルの条件付け入力として利用する。
論文 参考訳(メタデータ) (2025-10-05T20:03:30Z) - DualReward: A Dynamic Reinforcement Learning Framework for Cloze Tests Distractor Generation [0.4660328753262075]
DualRewardは、クローゼテストにおける自動イントラクタ生成のための新しい強化学習フレームワークである。
文レベル (CLOTH-F) と文レベル (MCQ) のクローゼテストデータセットについて検討した。
論文 参考訳(メタデータ) (2025-07-16T03:39:36Z) - SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Generating Lead Sheets with Affect: A Novel Conditional seq2seq
Framework [3.029434408969759]
本稿では,リードシート内のコード進行の正負性や負性性を計算するための新しい手法を提案する。
私たちのアプローチは、シーケンス・トゥ・シークエンスアーキテクチャのエンコーダ部分に高レベルの条件を含むため、ニューラルネットワーク翻訳(NMT)問題に似ています。
提案された戦略は、制御可能な方法でリードシートを生成することができ、トレーニングデータセットのそれに似た音楽属性の分布をもたらす。
論文 参考訳(メタデータ) (2021-04-27T09:04:21Z) - Music FaderNets: Controllable Music Generation Based On High-Level
Features via Low-Level Feature Modelling [5.88864611435337]
限られたデータ量で高レベルの特徴表現を学習できるフレームワークを提案する。
提案するフレームワークをMusic FaderNetsと呼び,低レベルの属性を継続的に操作できるという事実から着想を得た。
本モデルでは, 覚醒特性とそれに対応する低レベル属性の固有関係をうまく学習できることを実証する。
論文 参考訳(メタデータ) (2020-07-29T16:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。