論文の概要: TinyMusician: On-Device Music Generation with Knowledge Distillation and Mixed Precision Quantization
- arxiv url: http://arxiv.org/abs/2509.00914v1
- Date: Sun, 31 Aug 2025 15:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.459182
- Title: TinyMusician: On-Device Music Generation with Knowledge Distillation and Mixed Precision Quantization
- Title(参考訳): TinyMusician:知識蒸留と混合精度量子化によるオンデバイス音楽生成
- Authors: Hainan Wang, Mehdi Hosseinzadeh, Reza Rawassizadeh,
- Abstract要約: MusicGenから抽出した軽量音楽生成モデルであるTinyMusicianを提示する。
TinyMusicianはStage-mixed BidirectionalとSkewed KL-Divergenceという2つのイノベーションを統合している。
その結果,TinyMusician は MusicGen-Small のパフォーマンスの 93% を保ち,モデルサイズは 55% 減少した。
- 参考スコア(独自算出の注目度): 2.633261256867499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of the generative model has gained unprecedented attention in the music generation area. Transformer-based architectures have set new benchmarks for model performance. However, their practical adoption is hindered by some critical challenges: the demand for massive computational resources and inference time, due to their large number of parameters. These obstacles make them infeasible to deploy on edge devices, such as smartphones and wearables, with limited computational resources. In this work, we present TinyMusician, a lightweight music generation model distilled from MusicGen (a State-of-the-art music generation model). TinyMusician integrates two innovations: (i) Stage-mixed Bidirectional and Skewed KL-Divergence and (ii) Adaptive Mixed-Precision Quantization. The experimental results demonstrate that TinyMusician retains 93% of the MusicGen-Small performance with 55% less model size. TinyMusician is the first mobile-deployable music generation model that eliminates cloud dependency while maintaining high audio fidelity and efficient resource usage
- Abstract(参考訳): 生成モデルの成功は、音楽生成領域において前例のない注目を集めている。
トランスフォーマーベースのアーキテクチャでは、モデルパフォーマンスのための新しいベンチマークが設定されている。
しかし、その実践的採用は、大量の計算資源の需要や、大量のパラメータによる推論時間といった、いくつかの重要な課題によって妨げられている。
これらの障害により、限られた計算リソースを持つスマートフォンやウェアラブルなどのエッジデバイスへのデプロイが不可能になる。
本稿では,MusicGen(最先端音楽生成モデル)から抽出した軽量音楽生成モデルであるTinyMusicianを紹介する。
TinyMusicianは2つのイノベーションを統合している。
(i)ステージ混合双方向・スキューKL-ダイバージェンス
(II)適応混合精密量子化
実験の結果,TinyMusician は MusicGen-Small のパフォーマンスの 93% を保ち,モデルサイズは 55% 減少した。
TinyMusicianは、クラウド依存を排除し、高音質と効率的なリソース使用率を維持しながら、最初のモバイル配信可能な音楽生成モデルである
関連論文リスト
- Moonbeam: A MIDI Foundation Model Using Both Absolute and Relative Music Attributes [9.283206048560322]
Moonbeamは、シンボリック音楽のためのトランスフォーマーベースの基礎モデルである。
大量のMIDIデータを事前訓練し、合計81.6K時間の音楽と18億のトークンを収集する。
コードをオープンソース化し、事前訓練されたモデルを作成し、Githubでサンプルを生成しました。
論文 参考訳(メタデータ) (2025-05-21T14:17:25Z) - InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation [43.690876909464336]
InspireMusicは,高忠実度長大な音楽生成のためのフレームワーク統合スーパーレゾリューションと大規模言語モデルである。
統合されたフレームワークは、超解像フローマッチングモデルを備えた自己回帰変換器を組み込んだ高忠実な音楽、歌、オーディオを生成する。
我々のモデルは、よりリッチなセマンティック情報を含む1つのコードブックを持つオーディオトークンーを使用するため、従来のアプローチと異なる。
論文 参考訳(メタデータ) (2025-02-28T09:58:25Z) - MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning [24.6866990804501]
Instruct-MusicGenは、事前訓練されたMusicGenモデルを微調整して、効率的に編集命令に従う新しいアプローチである。
注目すべきは、Instruct-MusicGenはオリジナルのMusicGenモデルに8%新しいパラメータを導入し、5Kステップでのみ列車を走らせることだ。
論文 参考訳(メタデータ) (2024-05-28T17:27:20Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。