論文の概要: Live Music Models
- arxiv url: http://arxiv.org/abs/2508.04651v2
- Date: Fri, 08 Aug 2025 17:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 13:12:52.277595
- Title: Live Music Models
- Title(参考訳): ライブ音楽モデル
- Authors: Lyria Team, Antoine Caillon, Brian McWilliams, Cassie Tarakajian, Ian Simon, Ilaria Manco, Jesse Engel, Noah Constant, Yunpeng Li, Timo I. Denk, Alberto Lalama, Andrea Agostinelli, Cheng-Zhi Anna Huang, Ethan Manilow, George Brower, Hakan Erdogan, Heidi Lei, Itai Rolnick, Ivan Grishchenko, Manu Orsini, Matej Kastelic, Mauricio Zuluaga, Mauro Verzetti, Michael Dooley, Ondrej Skopek, Rafael Ferrer, Zalán Borsos, Äaron van den Oord, Douglas Eck, Eli Collins, Jason Baldridge, Tom Hume, Chris Donahue, Kehang Han, Adam Roberts,
- Abstract要約: 我々は,ライブ音楽モデルと呼ばれる音楽生成モデルの新たなクラスを導入する。
これらのモデルは、同期されたユーザ制御で、リアルタイムで音楽の連続的なストリームを生成する。
- 参考スコア(独自算出の注目度): 47.30940156065542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new class of generative models for music called live music models that produce a continuous stream of music in real-time with synchronized user control. We release Magenta RealTime, an open-weights live music model that can be steered using text or audio prompts to control acoustic style. On automatic metrics of music quality, Magenta RealTime outperforms other open-weights music generation models, despite using fewer parameters and offering first-of-its-kind live generation capabilities. We also release Lyria RealTime, an API-based model with extended controls, offering access to our most powerful model with wide prompt coverage. These models demonstrate a new paradigm for AI-assisted music creation that emphasizes human-in-the-loop interaction for live music performance.
- Abstract(参考訳): 本研究では,音楽の連続的なストリームをリアルタイムに生成し,ユーザ制御を同期させるライブ音楽モデルという,音楽生成モデルの新たなクラスを導入する。
我々はMagenta RealTimeをリリースした。これはオープンウェイトなライブ音楽モデルで、テキストやオーディオプロンプトを使ってアコースティックなスタイルを制御することができる。
音楽の質の自動測定では、Magenta RealTimeはパラメータを減らし、ファースト・オブ・イズ・ライヴ・ジェネレーションの機能を提供するにもかかわらず、他のオープン・ウェイト・ミュージック・ジェネレーション・モデルより優れている。
また、拡張コントロールを備えたAPIベースのモデルであるLyria RealTimeをリリースしています。
これらのモデルは、ライブ音楽演奏のための人間とループの相互作用を強調するAI支援音楽作成の新しいパラダイムを示す。
関連論文リスト
- JAM: A Tiny Flow-based Song Generator with Fine-grained Controllability and Aesthetic Alignment [26.590667516155083]
拡散モデルとフローマッチングモデルは、自動テキスト・オーディオ生成に革命をもたらした。
近年のオープン・ソング・トゥ・ソング・モデルは、レクリエーション用の自動曲生成において受け入れられる標準となっている。
フローマッチングに基づくJAMは,曲生成における単語レベルのタイミングと持続時間制御を実現するための最初の試みである。
論文 参考訳(メタデータ) (2025-07-28T14:34:02Z) - ReaLJam: Real-Time Human-AI Music Jamming with Reinforcement Learning-Tuned Transformers [53.63950017886757]
ReaLJamは、人間とトランスフォーマーをベースとしたAIエージェントが強化学習でトレーニングしたライブ音楽ジャミングセッションのためのインタフェースとプロトコルである。
エージェントが継続的にパフォーマンスを予測し,ユーザに対してその計画を視覚的に伝達する,予測という概念を用いてリアルタイムインタラクションを可能にする。
論文 参考訳(メタデータ) (2025-02-28T17:42:58Z) - InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation [43.690876909464336]
InspireMusicは,高忠実度長大な音楽生成のためのフレームワーク統合スーパーレゾリューションと大規模言語モデルである。
統合されたフレームワークは、超解像フローマッチングモデルを備えた自己回帰変換器を組み込んだ高忠実な音楽、歌、オーディオを生成する。
我々のモデルは、よりリッチなセマンティック情報を含む1つのコードブックを持つオーディオトークンーを使用するため、従来のアプローチと異なる。
論文 参考訳(メタデータ) (2025-02-28T09:58:25Z) - MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling [71.01050359126141]
ビデオ入力に対応する音楽を生成するためのフレームワークであるVidMuseを提案する。
VidMuseは、ビデオと音響的、意味的に一致した高忠実な音楽を生成する。
論文 参考訳(メタデータ) (2024-06-06T17:58:11Z) - Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls [6.176747724853209]
LLM(Large Language Models)は、高品質な音楽を生成する上で有望であるが、自動回帰生成に焦点をあてることで、音楽編集タスクにおける有用性を制限している。
本稿では,パラメータ効率の高いヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。
提案手法は, フレームレベルのコンテンツベース制御を統合し, トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。
論文 参考訳(メタデータ) (2024-02-14T19:00:01Z) - StemGen: A music generation model that listens [9.489938613869864]
音楽の文脈に耳を傾けたり反応したりできる音楽生成モデルを作成するための代替パラダイムを提案する。
本稿では,非自己回帰型トランスフォーマーモデルアーキテクチャを用いて,そのようなモデルを構築する方法について述べる。
得られたモデルは、最先端のテキスト条件付きモデルの音質に到達し、その文脈と強い音楽的コヒーレンスを示す。
論文 参考訳(メタデータ) (2023-12-14T08:09:20Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。