論文の概要: Steering Autoregressive Music Generation with Recursive Feature Machines
- arxiv url: http://arxiv.org/abs/2510.19127v1
- Date: Tue, 21 Oct 2025 23:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.825324
- Title: Steering Autoregressive Music Generation with Recursive Feature Machines
- Title(参考訳): 再帰的特徴マシンによる自己回帰音楽生成のステアリング
- Authors: Daniel Zhao, Daniel Beaglehole, Taylor Berg-Kirkpatrick, Julian McAuley, Zachary Novack,
- Abstract要約: MusicRFMはRecursive Feature Machines (RFM) に適応し、凍結した、事前訓練された音楽モデルに対してきめ細かな、解釈可能な制御を可能にするフレームワークである。
RFMはモデルの内部勾配を分析して解釈可能な「概念方向」を生成する
動的・時間変化のスケジュールと複数の音楽特性の同時実施方法を含む,この制御の高度な機構について述べる。
- 参考スコア(独自算出の注目度): 43.475981527010276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllable music generation remains a significant challenge, with existing methods often requiring model retraining or introducing audible artifacts. We introduce MusicRFM, a framework that adapts Recursive Feature Machines (RFMs) to enable fine-grained, interpretable control over frozen, pre-trained music models by directly steering their internal activations. RFMs analyze a model's internal gradients to produce interpretable "concept directions", or specific axes in the activation space that correspond to musical attributes like notes or chords. We first train lightweight RFM probes to discover these directions within MusicGen's hidden states; then, during inference, we inject them back into the model to guide the generation process in real-time without per-step optimization. We present advanced mechanisms for this control, including dynamic, time-varying schedules and methods for the simultaneous enforcement of multiple musical properties. Our method successfully navigates the trade-off between control and generation quality: we can increase the accuracy of generating a target musical note from 0.23 to 0.82, while text prompt adherence remains within approximately 0.02 of the unsteered baseline, demonstrating effective control with minimal impact on prompt fidelity. We release code to encourage further exploration on RFMs in the music domain.
- Abstract(参考訳): コントロール可能な音楽生成は依然として重要な課題であり、既存の手法では、しばしばモデルの再訓練や、聴取可能なアーティファクトの導入が必要となる。
本稿では, 内部アクティベーションを直接制御することで, 冷凍・訓練済みの音楽モデルに対して, きめ細かな制御を可能にするために, RFM(Recursive Feature Machine)を適応させるフレームワークであるMusicRFMを紹介する。
RFMはモデルの内部勾配を分析して解釈可能な「概念方向」や、音符や和音などの音楽的属性に対応するアクティベーション空間の特定の軸を生成する。
まず、MusicGenの隠れた状態内でこれらの方向を見つけるために軽量のRAMプローブを訓練し、次に推論中にそれらをモデルに注入し、ステップごとの最適化なしに生成プロセスをリアルタイムでガイドします。
動的・時間変化のスケジュールと複数の音楽特性の同時実施方法を含む,この制御の高度な機構について述べる。
提案手法は,目標音符を生成する精度を0.23から0.82に向上する一方,テキストプロンプトの付着は未処理のベースラインの0.02の範囲内に留まり,即効性への影響を最小限に抑えることができる。
音楽分野におけるRAMのさらなる探索を奨励するコードをリリースする。
関連論文リスト
- EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。
画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文 参考訳(メタデータ) (2025-07-15T08:44:11Z) - Fine-Grained control over Music Generation with Activation Steering [0.0]
本稿では,MusicGen と呼ばれる自己回帰生成型音楽変換器への推論時間介入による音楽生成のきめ細かい制御法を提案する。
本手法は, 学習した線形プローブの重みを用いて残差流を操り, 音色伝達, スタイル伝達, ジャンル融合を可能にする。
論文 参考訳(メタデータ) (2025-06-11T23:02:39Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Polyffusion: A Diffusion Model for Polyphonic Score Generation with
Internal and External Controls [5.597394612661976]
ポリフュージョン(Polyffusion)は、ポリフォニック音楽の楽譜を画像のようなピアノロール表現として生成する拡散モデルである。
内部および外部制御を用いることで、Polyffusionは幅広い音楽生成タスクを統一することを示す。
論文 参考訳(メタデータ) (2023-07-19T06:36:31Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。