論文の概要: Training-Efficient Text-to-Music Generation with State-Space Modeling
- arxiv url: http://arxiv.org/abs/2601.14786v1
- Date: Wed, 21 Jan 2026 09:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.30341
- Title: Training-Efficient Text-to-Music Generation with State-Space Modeling
- Title(参考訳): 状態空間モデリングによる学習効率の良いテキスト・音楽生成
- Authors: Wei-Jaw Lee, Fang-Chih Hsieh, Xuanjun Chen, Fang-Duo Tsai, Yi-Hsuan Yang,
- Abstract要約: 我々は、より訓練的でデータ効率のよいオープンソースの生成モデルバックボーンを提案する。
我々はTransformerのバックボーンを新しいステートスペースモデル(SSM)に置き換える。
提案したすべてのモデルは、CCライセンス音楽の457時間からなる純粋にパブリックなデータセット上で、ゼロからトレーニングされる。
- 参考スコア(独自算出の注目度): 8.067590027463497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-music generation (TTM) have yielded high-quality results, but often at the cost of extensive compute and the use of large proprietary internal data. To improve the affordability and openness of TTM training, an open-source generative model backbone that is more training- and data-efficient is needed. In this paper, we constrain the number of trainable parameters in the generative model to match that of the MusicGen-small benchmark (with about 300M parameters), and replace its Transformer backbone with the emerging class of state-space models (SSMs). Specifically, we explore different SSM variants for sequence modeling, and compare a single-stage SSM-based design with a decomposable two-stage SSM/diffusion hybrid design. All proposed models are trained from scratch on a purely public dataset comprising 457 hours of CC-licensed music, ensuring full openness. Our experimental findings are three-fold. First, we show that SSMs exhibit superior training efficiency compared to the Transformer counterpart. Second, despite using only 9% of the FLOPs and 2% of the training data size compared to the MusicGen-small benchmark, our model achieves competitive performance in both objective metrics and subjective listening tests based on MusicCaps captions. Finally, our scaling-down experiment demonstrates that SSMs can maintain competitive performance relative to the Transformer baseline even at the same training budget (measured in iterations), when the model size is reduced to four times smaller. To facilitate the democratization of TTM research, the processed captions, model checkpoints, and source code are available on GitHub via the project page: https://lonian6.github.io/ssmttm/.
- Abstract(参考訳): テキスト・ツー・ミュージック・ジェネレーション(TTM)の最近の進歩は、高品質な結果をもたらすが、大規模な計算と大規模プロプライエタリな内部データの使用により、しばしばコストがかかる。
TTMトレーニングの可利用性とオープン性を改善するために、より訓練的でデータ効率のよいオープンソースの生成モデルバックボーンが必要である。
本稿では、生成モデルにおけるトレーニング可能なパラメータの数を、MusicGen-smallベンチマーク(約3億のパラメータを持つ)と一致させ、Transformerのバックボーンを新しいステートスペースモデル(SSM)に置き換える。
具体的には、シーケンスモデリングのための異なるSSM変種を探索し、単一ステージのSSMベース設計と分解可能な2段階のSSM/拡散ハイブリッド設計を比較した。
提案されたすべてのモデルは、CCライセンス音楽の457時間からなる純粋な公開データセットでゼロからトレーニングされ、完全なオープン性を保証する。
実験の結果は3倍になった。
まず,SSMはTransformerと比較して訓練効率が優れていることを示す。
第2に, FLOPの9%と, MusicGen-smallベンチマークと比較してトレーニングデータサイズの2%しか使用していないにもかかわらず, 本モデルは, MusicCapsキャプションに基づく客観的評価と主観的聴力テストの両方において, 競合性能を達成している。
最後に, スケールダウン実験により, モデルサイズが4倍に縮小された場合, 同一トレーニング予算(イテレーションで測定)においても, トランスフォーマーベースラインに対して, SSM が競争性能を維持可能であることを示した。
TTM研究の民主化を促進するため、処理されたキャプション、モデルチェックポイント、ソースコードは、プロジェクトのページからGitHubで入手できる。
関連論文リスト
- Exploring the Design Space of Transition Matching [28.72249421384186]
本稿では,トランジションマッチング(TM)フレームワークにおける頭部の設計,訓練,サンプリングについて,大規模かつ体系的な調査を行う。
TMは、拡散・流れマッチングモデルと連続状態自己回帰モデルを一般化する生成モデリングの新しいパラダイムである。
論文 参考訳(メタデータ) (2025-12-13T21:34:47Z) - Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。
既存のアプローチは、高品質なデータによる教師付き微調整に依存している。
本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文 参考訳(メタデータ) (2025-05-29T16:15:36Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - LLäMmlein: Transparent, Compact and Competitive German-Only Language Models from Scratch [3.7160688974577156]
我々は、2つのドイツ専用デコーダモデル、LL"aMmlein 120Mと1Bを作成し、それらをスクラッチから透過的に公開し、トレーニングデータとともに、ドイツのNLP研究コミュニティが使用できるようにしました。
モデルトレーニングには、広範なデータ前処理、カスタムなドイツのトークン化器の作成、トレーニング自体、および様々なベンチマークの最終モデルの評価など、いくつかの重要なステップが含まれていた。
論文 参考訳(メタデータ) (2024-11-17T20:44:34Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Imputing Knowledge Tracing Data with Subject-Based Training via LSTM
Variational Autoencoders Frameworks [6.24828623162058]
我々は,行数分割の代わりに,学生IDによるデータ分割とインプットを行うために,主観的学習手法を採用した。
我々は既存の2つの深い生成フレームワーク、すなわち変分オートエンコーダ(VAE)と変分オートエンコーダ(LVAE)を活用している。
LSTM-VAE と LSTM-LVAE から生成したデータにより,元のモデルの性能を約50%向上できることを示す。
論文 参考訳(メタデータ) (2023-02-24T21:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。