Fugu-MT 論文翻訳(概要): Fine-Grained control over Music Generation with Activation Steering

論文の概要: Fine-Grained control over Music Generation with Activation Steering

arxiv url: http://arxiv.org/abs/2506.10225v1
Date: Wed, 11 Jun 2025 23:02:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.482622
Title: Fine-Grained control over Music Generation with Activation Steering
Title（参考訳）: アクティベーションステアリングによる音楽生成の微粒化制御
Authors: Dipanshu Panda, Jayden Koshy Joe, Harshith M R, Swathi Narashiman, Pranay Mathur, Anish Veerakumar, Aniruddh Krishna, Keerthiharan A,
Abstract要約: 本稿では,MusicGen と呼ばれる自己回帰生成型音楽変換器への推論時間介入による音楽生成のきめ細かい制御法を提案する。本手法は, 学習した線形プローブの重みを用いて残差流を操り, 音色伝達, スタイル伝達, ジャンル融合を可能にする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a method for fine-grained control over music generation through inference-time interventions on an autoregressive generative music transformer called MusicGen. Our approach enables timbre transfer, style transfer, and genre fusion by steering the residual stream using weights of linear probes trained on it, or by steering the attention layer activations in a similar manner. We observe that modelling this as a regression task provides improved performance, hypothesizing that the mean-squared-error better preserve meaningful directional information in the activation space. Combined with the global conditioning offered by text prompts in MusicGen, our method provides both global and local control over music generation. Audio samples illustrating our method are available at our demo page.
Abstract（参考訳）: 本稿では,MusicGen と呼ばれる自己回帰生成型音楽変換器への推論時間介入による音楽生成のきめ細かい制御法を提案する。提案手法は, 学習した線形プローブの重みを利用して残差ストリームを操り, 注意層アクティベーションを同様に操ることで, 音色伝達, スタイル移動, ジャンル融合を可能にする。我々はこれを回帰タスクとしてモデル化することで性能が向上し、平均二乗誤差が活性化空間における有意義な方向情報をよりよく保存できるという仮説を立てた。 MusicGenのテキストプロンプトによって提供されるグローバルな条件付けと組み合わせることで,音楽生成のグローバルな制御とローカルな制御を両立させることができる。私たちのメソッドを例証したオーディオサンプルは、私たちのデモページで公開されています。

関連論文リスト

Evaluating Disentangled Representations for Controllable Music Generation [8.177554704838213]
探索型フレームワークを用いた制御可能生成のための音楽音響モデルにおける不整合表現の評価を行った。選択されたモデルは、インダクティブバイアス、データ拡張、敵対的目標、ステージドトレーニング手順など、さまざまな教師なしの非絡み合い戦略を反映している。本研究により, 埋め込みの意図的意味論と実際の意味論の矛盾が明らかとなり, 現状の戦略が真に不整合表現を生み出すには至っていないことが示唆された。
論文参考訳（メタデータ） (2026-02-10T18:25:04Z)
Steering Autoregressive Music Generation with Recursive Feature Machines [43.475981527010276]
MusicRFMはRecursive Feature Machines (RFM) に適応し、凍結した、事前訓練された音楽モデルに対してきめ細かな、解釈可能な制御を可能にするフレームワークである。 RFMはモデルの内部勾配を分析して解釈可能な「概念方向」を生成する動的・時間変化のスケジュールと複数の音楽特性の同時実施方法を含む,この制御の高度な機構について述べる。
論文参考訳（メタデータ） (2025-10-21T23:23:14Z)
EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文参考訳（メタデータ） (2025-07-15T08:44:11Z)
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文参考訳（メタデータ） (2024-07-05T08:08:22Z)
Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls [6.176747724853209]
LLM(Large Language Models)は、高品質な音楽を生成する上で有望であるが、自動回帰生成に焦点をあてることで、音楽編集タスクにおける有用性を制限している。本稿では,パラメータ効率の高いヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。提案手法は, フレームレベルのコンテンツベース制御を統合し, トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。
論文参考訳（メタデータ） (2024-02-14T19:00:01Z)
DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文参考訳（メタデータ） (2024-01-22T18:10:10Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
Generating Lead Sheets with Affect: A Novel Conditional seq2seq Framework [3.029434408969759]
本稿では,リードシート内のコード進行の正負性や負性性を計算するための新しい手法を提案する。私たちのアプローチは、シーケンス・トゥ・シークエンスアーキテクチャのエンコーダ部分に高レベルの条件を含むため、ニューラルネットワーク翻訳(NMT)問題に似ています。提案された戦略は、制御可能な方法でリードシートを生成することができ、トレーニングデータセットのそれに似た音楽属性の分布をもたらす。
論文参考訳（メタデータ） (2021-04-27T09:04:21Z)
Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文参考訳（メタデータ） (2020-08-06T18:29:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。