論文の概要: The Name-Free Gap: Policy-Aware Stylistic Control in Music Generation
- arxiv url: http://arxiv.org/abs/2509.00654v1
- Date: Sun, 31 Aug 2025 01:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.326181
- Title: The Name-Free Gap: Policy-Aware Stylistic Control in Music Generation
- Title(参考訳): 名前のないギャップ:音楽生成におけるポリシーを考慮したスティリスティック制御
- Authors: Ashwin Nagarajan, Hao-Wen Dong,
- Abstract要約: そこで本研究では,軽量で可読性の高い記述子が,文体制御の代替手段となるか検討する。
我々は、ビリー・アイリッシュ(ボーカルポップ)とルドヴィコ・アイナウディ(インストラクタルピアノ)の2人のアーティストを評価する。
その結果、アーティスト名は両アーティストの中で最も強いコントロールシグナルであり、名前のない記述者がこの効果の多くを回復していることがわかった。
- 参考スコア(独自算出の注目度): 4.654067937895813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-music models capture broad attributes such as instrumentation or mood, but fine-grained stylistic control remains an open challenge. Existing stylization methods typically require retraining or specialized conditioning, which complicates reproducibility and limits policy compliance when artist names are restricted. We study whether lightweight, human-readable modifiers sampled from a large language model can provide a policy-robust alternative for stylistic control. Using MusicGen-small, we evaluate two artists: Billie Eilish (vocal pop) and Ludovico Einaudi (instrumental piano). For each artist, we use fifteen reference excerpts and evaluate matched seeds under three conditions: baseline prompts, artist-name prompts, and five descriptor sets. All prompts are generated using a large language model. Evaluation uses both VGGish and CLAP embeddings with distributional and per-clip similarity measures, including a new min-distance attribution metric. Results show that artist names are the strongest control signal across both artists, while name-free descriptors recover much of this effect. This highlights that existing safeguards such as the restriction of artist names in music generation prompts may not fully prevent style imitation. Cross-artist transfers reduce alignment, showing that descriptors encode targeted stylistic cues. We also present a descriptor table across ten contemporary artists to illustrate the breadth of the tokens. Together these findings define the name-free gap, the controllability difference between artist-name prompts and policy-compliant descriptors, shown through a reproducible evaluation protocol for prompt-level controllability.
- Abstract(参考訳): テクスト・ツー・ミュージックのモデルは、楽器やムードなどの幅広い属性をキャプチャするが、きめ細かいスタイリスティックな制御は依然としてオープンな課題である。
既存のスタイリング手法は、通常、再現性を複雑にし、アーティスト名が制限された場合にポリシー遵守を制限する、リトレーニングや特別な条件付けを必要とする。
本研究では,大規模言語モデルから抽出した軽量で可読な修飾器が,スタイリスティックな制御のためのポリシ・ロバストな代替手段となるかどうかを考察する。
MusicGen-smallを使って、Billie Eilish(ボーカルポップ)とLudocio Einaudi(インストラクタルピアノ)の2人のアーティストを評価します。
それぞれのアーティストに対して、15の参照抽出を使用し、ベースラインプロンプト、アーティスト名プロンプト、および5つのディスクリプタセットという3つの条件下でマッチしたシードを評価する。
すべてのプロンプトは、大きな言語モデルを使って生成される。
評価には、VGGishとCLAPの埋め込みと、新しいMin-Distance Attribution Metricsを含む、分散およびクリック毎の類似度測定の両方を用いる。
その結果、アーティスト名は両アーティストの中で最も強いコントロールシグナルであり、名前のない記述者がこの効果の多くを回復していることがわかった。
これは、音楽生成プロンプトにおけるアーティスト名制限などの既存の保護策が、スタイルの模倣を完全に防ぐことはできないことを強調している。
クロスアーティスト転送はアライメントを減少させ、デクリプタがターゲットのスタイリスティックな手がかりを符号化していることを示す。
また、同時代の芸術家10名を対象に、トークンの幅を解説する記述表を提示する。
これらの知見と合わせて、アーティスト名プロンプトとポリシーに準拠した記述子との制御可能性の違いを、プロンプトレベルの制御可能性のための再現可能な評価プロトコルを通じて定義した。
関連論文リスト
- Identifying Prompted Artist Names from Generated Images [59.34482128911978]
テキスト・ツー・イメージの一般的な使用法は、アーティストを明示的に命名することで画像を生成することである。
本稿では,プロンプトアーティスト認識のためのベンチマークを紹介する。
データセットには110人のアーティストをカバーする195万の画像が含まれている。
論文 参考訳(メタデータ) (2025-07-24T17:59:44Z) - ArtistAuditor: Auditing Artist Style Pirate in Text-to-Image Generation Models [61.55816738318699]
本稿では,テキスト・画像生成モデルにおける新しいデータ利用監査手法を提案する。
ArtistAuditorは、多彩なスタイルの表現を得るためにスタイル抽出器を使用し、アートワークをアーティストのスタイルのサンプリングとして扱う。
6つのモデルとデータセットの組み合わせによる実験結果は、ArtistAuditorが高いAUC値を達成可能であることを示している。
論文 参考訳(メタデータ) (2025-04-17T16:15:38Z) - Towards Estimating Personal Values in Song Lyrics [5.170818712089796]
西洋諸国で広く消費されている音楽は、歌詞が含まれており、アメリカのサンプルでは、彼らの楽曲ライブラリのほとんどすべてが歌詞を含んでいると報告している。
本稿では,社会科学理論に導かれたパースペクティビズム的アプローチを用いて,アノテーションの収集,品質評価,集約を行う。
次に、評価値辞書を用いて、事前学習した文/単語の埋め込みモデルに基づく評価値と比較する。
論文 参考訳(メタデータ) (2024-08-22T19:22:55Z) - Synthetic Lyrics Detection Across Languages and Genres [4.987546582439803]
音楽コンテンツ、特に歌詞を生成する大きな言語モデル(LLM)が人気を集めている。
これまで様々な領域におけるコンテンツ検出について研究されてきたが、音楽におけるテキストのモダリティ、歌詞に焦点を当てた研究は行われていない。
我々は、複数の言語、音楽ジャンル、アーティストのリアルとシンセサイザーの多様なデータセットをキュレートした。
既存の合成テキスト検出手法について,未探索のデータ型である歌詞に対して,徹底的に評価を行った。
音楽と産業の制約に従えば、これらのアプローチが言語全体にわたってどのように一般化され、データの可用性に配慮し、多言語言語コンテンツを処理し、数ショット設定で新しいジャンルで演奏するかを検討する。
論文 参考訳(メタデータ) (2024-06-21T15:19:21Z) - GATSY: Graph Attention Network for Music Artist Similarity [4.84315398254578]
GATSYは、グラフアテンションネットワーク上に構築され、アーティストのクラスタ化された埋め込みによって駆動される新しいレコメンデーションシステムである。
本稿では,グラフアテンションネットワーク上に構築された新たなレコメンデーションシステムGATSYを紹介する。
論文 参考訳(メタデータ) (2023-11-01T16:36:19Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。