論文の概要: Local deployment of large-scale music AI models on commodity hardware
- arxiv url: http://arxiv.org/abs/2411.09625v1
- Date: Thu, 14 Nov 2024 17:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:23:18.678735
- Title: Local deployment of large-scale music AI models on commodity hardware
- Title(参考訳): 大規模音楽AIモデルのコモディティハードウェアへの局所展開
- Authors: Xun Zhou, Charlie Ruan, Zihe Zhao, Tianqi Chen, Chris Donahue,
- Abstract要約: MIDInfiniteは,コモディティハードウェア上で大規模生成AIモデルを用いて,シンボリック音楽を生成することができるWebアプリケーションである。
概念実証として,ブラウザ上で多機能MIDIの無限ストリームを生成するWebアプリケーションを構築した。
コモディティハードウェア(M3 Macbook Pro)では、デモでは51ノートを毎秒生成することができ、72.9%の世代でリアルタイム再生よりも高速です。
- 参考スコア(独自算出の注目度): 14.748510630479712
- License:
- Abstract: We present the MIDInfinite, a web application capable of generating symbolic music using a large-scale generative AI model locally on commodity hardware. Creating this demo involved porting the Anticipatory Music Transformer, a large language model (LLM) pre-trained on the Lakh MIDI dataset, to the Machine Learning Compilation (MLC) framework. Once the model is ported, MLC facilitates inference on a variety of runtimes including C++, mobile, and the browser. We envision that MLC has the potential to bridge the gap between the landscape of increasingly capable music AI models and technology more familiar to music software developers. As a proof of concept, we build a web application that allows users to generate endless streams of multi-instrumental MIDI in the browser, either from scratch or conditioned on a prompt. On commodity hardware (an M3 Macbook Pro), our demo can generate 51 notes per second, which is faster than real-time playback for 72.9% of generations, and increases to 86.3% with 2 seconds of upfront buffering.
- Abstract(参考訳): MIDInfiniteは,コモディティハードウェア上で大規模生成AIモデルを用いて,シンボリック音楽を生成することができるWebアプリケーションである。
このデモの作成には、Lakh MIDIデータセットで事前トレーニングされた大きな言語モデル(LLM)である予測音楽変換器を、MLC(Machine Learning Compilation)フレームワークに移植することが含まれていた。
モデルが移植されると、LCCはC++、モバイル、ブラウザなど、さまざまなランタイムでの推論を容易にする。
MLCは、ますます有能な音楽AIモデルの景観と、音楽ソフトウェア開発者になじみのある技術とのギャップを埋める可能性がある、と私たちは考えています。
概念実証として,ユーザがブラウザ上で,スクラッチから,あるいはプロンプトで条件付で,多機能MIDIの無限ストリームを生成できるWebアプリケーションを構築した。
商品ハードウェア(M3 Macbook Pro)では、デモでは51ノートを毎秒生成することができ、72.9%の世代でリアルタイム再生より高速で、86.3%まで上昇し、2秒前のバッファリングを行う。
関連論文リスト
- UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - Mozart's Touch: A Lightweight Multi-modal Music Generation Framework Based on Pre-Trained Large Models [9.311353871322325]
MozartのTouchは、マルチモーダルキャプションモジュール、LLM (Large Language Model) Understanding & Bridging Module、Music Generation Moduleの3つの主要コンポーネントで構成されている。
従来のアプローチとは異なり、MozartのTouchはトレーニングや微調整を必要とせず、透明で解釈可能なプロンプトを通じて効率と透明性を提供する。
論文 参考訳(メタデータ) (2024-05-05T03:15:52Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - Musika! Fast Infinite Waveform Music Generation [0.0]
Musikaは、何百時間もの音楽を、単一の消費者向けGPUを使って訓練できる音楽生成システムだ。
まず、逆自己エンコーダを用いて分光器の大きさと位相のコンパクトな可逆表現を学習する。
潜在座標系は任意の長さの抜粋列を並列に生成することができ、一方、グローバルな文脈ベクトルは、時間を通してスタイリスティックに整合性を保つことができる。
論文 参考訳(メタデータ) (2022-08-18T08:31:15Z) - MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just
One Transformer VAE [36.9033909878202]
トランスフォーマーと可変オートエンコーダ(VAE)は、シンボリック(例えばMIDI)ドメイン音楽生成に広く採用されている。
本稿では,両強みを示す単一のモデルを構築するために,この2つをまとめることに興味がある。
実験により、musemorphoseはrecurrent neural network(rnn)よりも多くのスタイル転送タスクで広く使われているメトリクスを先行技術で上回っていることが示されている。
論文 参考訳(メタデータ) (2021-05-10T03:44:03Z) - Using a Bi-directional LSTM Model with Attention Mechanism trained on
MIDI Data for Generating Unique Music [0.25559196081940677]
本稿では,MIDIデータに基づく類似音楽を生成するためのアテンション機構を備えた双方向LSTMモデルを提案する。
モデルが生成する音楽は、モデルがトレーニングする音楽のテーマ/スタイルに従う。
論文 参考訳(メタデータ) (2020-11-02T06:43:28Z) - Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-21T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。