論文の概要: SqueezeComposer: Temporal Speed-up is A Simple Trick for Long-form Music Composing
- arxiv url: http://arxiv.org/abs/2603.21073v1
- Date: Sun, 22 Mar 2026 06:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.226093
- Title: SqueezeComposer: Temporal Speed-up is A Simple Trick for Long-form Music Composing
- Title(参考訳): SqueezeComposer: テンポラリなスピードアップは、長めの音楽作曲のためのシンプルなトリック
- Authors: Jianyi Chen, Rongxiu Zhong, Shilei Zhang, Kun Qian, Jinglei Liu, Yike Guo, Wei Xue,
- Abstract要約: AIモデルは、2倍、4倍、または8倍のレートで、タイムアクセラレーションされた(スピードアップされた)オーディオを理解し、生成できると仮定する。
音楽の高速バージョンを最初に生成することにより、時間長とリソース要件を大幅に削減する。
我々は、このアイデアをSqueezeComposerでインスタンス化します。これは、拡散モデルを利用して、加速されたドメインの生成と復元されたドメインの洗練を行います。
- 参考スコア(独自算出の注目度): 35.732692220471606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composing coherent long-form music remains a significant challenge due to the complexity of modeling long-range dependencies and the prohibitive memory and computational requirements associated with lengthy audio representations. In this work, we propose a simple yet powerful trick: we assume that AI models can understand and generate time-accelerated (speeded-up) audio at rates such as 2x, 4x, or even 8x. By first generating a high-speed version of the music, we greatly reduce the temporal length and resource requirements, making it feasible to handle long-form music that would otherwise exceed memory or computational limits. The generated audio is then restored to its original speed, recovering the full temporal structure. This temporal speed-up and slow-down strategy naturally follows the principle of hierarchical generation from abstract to detailed content, and can be conveniently applied to existing music generation models to enable long-form music generation. We instantiate this idea in SqueezeComposer, a framework that employs diffusion models for generation in the accelerated domain and refinement in the restored domain. We validate the effectiveness of this approach on two tasks: long-form music generation, which evaluates temporal-wise control (including continuation, completion, and generation from scratch), and whole-song singing accompaniment generation, which evaluates track-wise control. Experimental results demonstrate that our simple temporal speed-up trick enables efficient, scalable, and high-quality long-form music generation. Audio samples are available at https://SqueezeComposer.github.io/.
- Abstract(参考訳): コヒーレントなロングフォーム音楽を構成することは、長距離依存をモデル化する複雑さと、長大な音声表現に関連する禁忌なメモリと計算要求が原因で、依然として大きな課題である。
本稿では,AIモデルが2倍,4倍,あるいは8倍の速度で,タイムアクセラレーション(スピードアップ)音声を理解・生成できると仮定する。
音楽の高速バージョンを最初に生成することにより、時間的長さとリソースの要求を大幅に削減し、メモリや計算限界を超えるような長大な音楽を扱うことが可能となる。
生成されたオーディオは元の速度に復元され、完全な時間構造が復元される。
この時間的スピードアップとスローダウン戦略は、抽象コンテンツから詳細コンテンツへの階層的生成の原則を自然に踏襲し、既存の音楽生成モデルに便利に適用し、長大な音楽生成を可能にする。
我々は、このアイデアをSqueezeComposerでインスタンス化します。これは、拡散モデルを利用して、加速されたドメインの生成と復元されたドメインの洗練を行います。
提案手法の有効性を,時間的制御(継続,完了,スクラッチからの生成を含む)を評価する長調音楽生成と,トラックワイズ制御を評価する全歌唱伴奏生成の2つのタスクで検証する。
実験により, 簡単な時間的スピードアップ手法により, 効率よく, スケーラブルで, 高品質な長大な音楽生成が可能となった。
オーディオサンプルはhttps://SqueezeComposer.github.io/.com/で入手できる。
関連論文リスト
- Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control [66.46754271097555]
我々は, きめ細かなスタイル条件付き長大な楽曲生成のための, 完全オープンソースシステムをリリースする。
データセットは116kの完全ライセンスの合成曲で構成され、自動生成の歌詞とスタイル記述がある。
我々は、個別の音声トークンで拡張されたQwenベースの言語モデルの単一ステージ教師付き微調整によりMuseを訓練する。
論文 参考訳(メタデータ) (2026-01-07T14:40:48Z) - InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation [43.690876909464336]
InspireMusicは,高忠実度長大な音楽生成のためのフレームワーク統合スーパーレゾリューションと大規模言語モデルである。
統合されたフレームワークは、超解像フローマッチングモデルを備えた自己回帰変換器を組み込んだ高忠実な音楽、歌、オーディオを生成する。
我々のモデルは、よりリッチなセマンティック情報を含む1つのコードブックを持つオーディオトークンーを使用するため、従来のアプローチと異なる。
論文 参考訳(メタデータ) (2025-02-28T09:58:25Z) - Long-Term Rhythmic Video Soundtracker [37.082768654951465]
我々は、長期条件波形を合成する新しいフレームワーク、LORIS(Long-Term Rhythmic Video Soundtracker)を提案する。
モデルの適用性をダンスからフロアエクササイズやフィギュアスケートといった複数のスポーツシナリオに拡張する。
我々のモデルは、最先端の音楽的品質とリズム対応を備えた長期的なサウンドトラックを生成する。
論文 参考訳(メタデータ) (2023-05-02T10:58:29Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Musika! Fast Infinite Waveform Music Generation [0.0]
Musikaは、何百時間もの音楽を、単一の消費者向けGPUを使って訓練できる音楽生成システムだ。
まず、逆自己エンコーダを用いて分光器の大きさと位相のコンパクトな可逆表現を学習する。
潜在座標系は任意の長さの抜粋列を並列に生成することができ、一方、グローバルな文脈ベクトルは、時間を通してスタイリスティックに整合性を保つことができる。
論文 参考訳(メタデータ) (2022-08-18T08:31:15Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。