論文の概要: Exploring Adapter Design Tradeoffs for Low Resource Music Generation
- arxiv url: http://arxiv.org/abs/2506.21298v1
- Date: Thu, 26 Jun 2025 14:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.123562
- Title: Exploring Adapter Design Tradeoffs for Low Resource Music Generation
- Title(参考訳): 低資源音楽生成のための適応設計トレードオフの探索
- Authors: Atharva Mehta, Shivam Chauhan, Monojit Choudhury,
- Abstract要約: 我々は2つのAI音楽モデル、MusicGenとMustangoのアダプタ構成について、ヒンドゥーシャニー古典音楽とトルコ・マカム音楽の2つのジャンルについて検討した。
コンボリューションベースのアダプタはきめ細かな局所的な音楽的詳細を捉えるのに優れ、トランスフォーマーベースのアダプタは長距離依存をよりよく保存する。
- 参考スコア(独自算出の注目度): 9.230532392213613
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fine-tuning large-scale music generation models, such as MusicGen and Mustango, is a computationally expensive process, often requiring updates to billions of parameters and, therefore, significant hardware resources. Parameter-Efficient Fine-Tuning (PEFT) techniques, particularly adapter-based methods, have emerged as a promising alternative, enabling adaptation with minimal trainable parameters while preserving model performance. However, the design choices for adapters, including their architecture, placement, and size, are numerous, and it is unclear which of these combinations would produce optimal adapters and why, for a given case of low-resource music genre. In this paper, we attempt to answer this question by studying various adapter configurations for two AI music models, MusicGen and Mustango, on two genres: Hindustani Classical and Turkish Makam music. Our findings reveal distinct trade-offs: convolution-based adapters excel in capturing fine-grained local musical details such as ornamentations and short melodic phrases, while transformer-based adapters better preserve long-range dependencies crucial for structured improvisation. Additionally, we analyze computational resource requirements across different adapter scales, demonstrating how mid-sized adapters (40M parameters) achieve an optimal balance between expressivity and quality. Furthermore, we find that Mustango, a diffusion-based model, generates more diverse outputs with better adherence to the description in the input prompt while lacking in providing stability in notes, rhythm alignment, and aesthetics. Also, it is computationally intensive and requires significantly more time to train. In contrast, autoregressive models like MusicGen offer faster training and are more efficient, and can produce better quality output in comparison, but have slightly higher redundancy in their generations.
- Abstract(参考訳): MusicGenやMustangoのような微調整の大規模な音楽生成モデルは計算に費用がかかるプロセスであり、数十億のパラメータを更新する必要がある。
パラメータ効率の良いファインチューニング(PEFT)技術、特にアダプタベースの手法は、モデル性能を保ちながら、最小限のトレーニング可能なパラメータで適応できる有望な代替手段として登場した。
しかし、そのアーキテクチャ、配置、サイズを含むアダプタの設計選択は多く、どの組み合わせが最適なアダプタを生成するのか、低リソースの音楽ジャンルの場合、なぜかは不明である。
本稿では,ヒンズーシャニー古典音楽とトルコ・マカム音楽の2つのジャンルにおいて,AI音楽モデルであるMusicGenとMustangoの様々なアダプタ構成を研究することによって,この問題に答えようとしている。
コンボリューションベースのアダプタは装飾や短い旋律句などの細かな局所的な音楽的詳細を捉えるのに優れ、トランスフォーマーベースのアダプタは構造的即興に不可欠な長距離依存関係をよりよく保存する。
さらに、異なるアダプタスケールにわたる計算資源の要求を分析し、中規模のアダプタ(40Mパラメータ)が表現性と品質の最適なバランスをいかに達成するかを示す。
さらに,拡散モデルであるMustangoは,音符,リズムアライメント,美学の安定性を欠きながら,入力プロンプトの記述に忠実な多様な出力を生成する。
また、計算集約的で、トレーニングに要する時間も大幅に増える。
対照的に、MusicGenのような自動回帰モデルは、より高速なトレーニングを提供し、より効率的であり、より良い品質の出力が得られるが、世代ごとに若干の冗長性がある。
関連論文リスト
- InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation [43.690876909464336]
InspireMusicは,高忠実度長大な音楽生成のためのフレームワーク統合スーパーレゾリューションと大規模言語モデルである。
統合されたフレームワークは、超解像フローマッチングモデルを備えた自己回帰変換器を組み込んだ高忠実な音楽、歌、オーディオを生成する。
我々のモデルは、よりリッチなセマンティック情報を含む1つのコードブックを持つオーディオトークンーを使用するため、従来のアプローチと異なる。
論文 参考訳(メタデータ) (2025-02-28T09:58:25Z) - Adapters Strike Back [10.490880056507198]
我々は、アダプタ、内部構造、および様々な実装選択について詳細に研究する。
我々は、Adapter+と呼ばれる具体的かつ改良されたアダプタアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-10T22:07:57Z) - Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision [52.80792724919329]
本稿では,2次元画像と3次元点雲の微調整を改善するためのAdapter-Xという新しいフレームワークを提案する。
2D画像と3Dポイントの雲のモードで完全な微調整をし、パラメータが大幅に少ない、すなわち2Dと3Dの分類タスクにおいて、オリジナルのトレーニング可能なパラメータのわずか0.20%と1.88%で、初めて性能を上回った。
論文 参考訳(メタデータ) (2024-06-05T08:26:44Z) - MoSA: Mixture of Sparse Adapters for Visual Efficient Tuning [20.68925288222065]
スパースアダプタの混合(英: Mixture of Sparse Adapters, MoSA)は、新しいアダプタチューニング法である。
MoSAは、余分な計算ストレージオーバーヘッドを伴わずに、標準よりも大幅にパフォーマンスが向上する。
MoSAは、他のAdapter Tuningメソッド、および他のベースラインを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2023-12-05T17:50:55Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - To Adapt or to Fine-tune: A Case Study on Abstractive Summarization [7.353994554197792]
抽象的な要約の分野における最近の進歩は、ゼロからモデルを訓練するのではなく、事前訓練された言語モデルを活用する。
このようなモデルは訓練に適さないため、膨大なオーバーヘッドが伴う。
アダプタの使用が、パフォーマンスの不快な犠牲を伴わずに効率を向上するという点で、要約作業の恩恵を受けるかどうかは不明だ。
論文 参考訳(メタデータ) (2022-08-30T22:48:28Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Composable Sparse Fine-Tuning for Cross-Lingual Transfer [56.86192078426372]
事前学習されたモデルのパラメータを微調整することが、伝達学習の主流のアプローチとなっている。
本稿では,これら2つの望ましい特性を持つファインチューニング手法を提案する。
これは、ゼロショットのクロスランガル転送において、大きなマージンでアダプタを上回ります。
論文 参考訳(メタデータ) (2021-10-14T17:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。