Fugu-MT 論文翻訳(概要): Towards Real-Time Human-AI Musical Co-Performance: Accompaniment Generation with Latent Diffusion Models and MAX/MSP

論文の概要: Towards Real-Time Human-AI Musical Co-Performance: Accompaniment Generation with Latent Diffusion Models and MAX/MSP

arxiv url: http://arxiv.org/abs/2604.07612v1
Date: Wed, 08 Apr 2026 21:30:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.574825
Title: Towards Real-Time Human-AI Musical Co-Performance: Accompaniment Generation with Latent Diffusion Models and MAX/MSP
Title（参考訳）: リアルタイム人間とAIの共演奏に向けて:潜時拡散モデルとMAX/MSPによる伴奏生成
Authors: Tornike Karchkhadze, Shlomo Dubnov,
Abstract要約: 本稿では,リアルタイムな人間-AI音楽の協調演奏のための枠組みについて述べる。このシステムは、MAX/MSPのフロントエンド処理によるリアルタイムオーディオ入力、バッファリング、再生を、OSC/UDPメッセージを介して通信する生成モデルを実行するPython推論サーバと組み合わせる。
参考スコア（独自算出の注目度）: 10.7598634894472
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a framework for real-time human-AI musical co-performance, in which a latent diffusion model generates instrumental accompaniment in response to a live stream of context audio. The system combines a MAX/MSP front-end-handling real-time audio input, buffering, and playback-with a Python inference server running the generative model, communicating via OSC/UDP messages. This allows musicians to perform in MAX/MSP - a well-established, real-time capable environment - while interacting with a large-scale Python-based generative model, overcoming the fundamental disconnect between real-time music tools and state-of-the-art AI models. We formulate accompaniment generation as a sliding-window look-ahead protocol, training the model to predict future audio from partial context, where system latency is a critical constraint. To reduce latency, we apply consistency distillation to our diffusion model, achieving a 5.4x reduction in sampling time, with both models achieving real-time operation. Evaluated on musical coherence, beat alignment, and audio quality, both models achieve strong performance in the Retrospective regime and degrade gracefully as look-ahead increases. These results demonstrate the feasibility of diffusion-based real-time accompaniment and expose the fundamental trade-off between model latency, look-ahead depth, and generation quality that any such system must navigate.
Abstract（参考訳）: 本稿では,リアルタイムな人間-AI音楽の協調演奏のための枠組みについて述べる。このシステムは、MAX/MSPフロントエンド処理のリアルタイムオーディオ入力、バッファリング、再生を、OSC/UDPメッセージを介して通信する生成モデルを実行するPython推論サーバと組み合わせる。これにより、ミュージシャンはMAX/MSP – 確立されたリアルタイム能力のある環境 — で実行でき、大規模なPythonベースの生成モデルと相互作用し、リアルタイムの音楽ツールと最先端AIモデルとの根本的な切断を克服することができる。我々は,システム遅延が重要な制約である部分的コンテキストから将来の音声を予測するためにモデルをトレーニングし,スライディングウインドウのルックアヘッドプロトコルとして伴奏生成を定式化する。遅延を低減するため, 拡散モデルに整合蒸留を適用し, サンプリング時間の5.4倍の低減を実現し, 両モデルとも実時間操作を実現した。音楽的コヒーレンス、ビートアライメント、オーディオ品質に基づいて評価され、両モデルともレトロスペクティブ体制において強い性能を達成し、ルックアヘッドの増加とともに優雅に劣化する。これらの結果は拡散に基づくリアルタイム伴奏の実現可能性を示し、モデル遅延、ルックアヘッド深度、およびそのようなシステムがナビゲートしなければならない生成品質の基本的なトレードオフを明らかにする。

関連論文リスト

Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [57.458450695137664]
提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
論文参考訳（メタデータ） (2025-12-04T11:11:24Z)
Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文参考訳（メタデータ） (2025-08-13T17:33:37Z)
Designing Neural Synthesizers for Low-Latency Interaction [8.27756937768806]
対話型ニューラルオーディオ合成(NAS)モデルで典型的に見られる遅延源とジッタについて検討する。次に、この解析を畳み込み変分オートエンコーダであるRAVEを用いて音色伝達のタスクに適用する。これは、私たちがBRAVEと呼ぶ低レイテンシで、ピッチと大音量の再現性が向上したモデルで終わる。
論文参考訳（メタデータ） (2025-03-14T16:30:31Z)
ReaLJam: Real-Time Human-AI Music Jamming with Reinforcement Learning-Tuned Transformers [53.63950017886757]
ReaLJamは、人間とトランスフォーマーをベースとしたAIエージェントが強化学習でトレーニングしたライブ音楽ジャミングセッションのためのインタフェースとプロトコルである。エージェントが継続的にパフォーマンスを予測し,ユーザに対してその計画を視覚的に伝達する,予測という概念を用いてリアルタイムインタラクションを可能にする。
論文参考訳（メタデータ） (2025-02-28T17:42:58Z)
Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models [0.0]
ディフ・A・リフ(Diff-A-Riff)は、あらゆる音楽的文脈に適応する高品質な楽器を生成するために設計された潜在拡散モデルである。 48kHzの擬似ステレオオーディオを生成し、推論時間とメモリ使用量を大幅に削減する。
論文参考訳（メタデータ） (2024-06-12T16:34:26Z)
Music Consistency Models [31.415900049111023]
本稿では,音楽クリップのメル-スペクトログラムを効率よく合成するために,一貫性モデルの概念を活用する音楽一貫性モデル(textttMusicCM)を提案する。既存のテキストから音楽への拡散モデルに基づいて、textttMusicCMモデルは、一貫性の蒸留と逆微分器の訓練を取り入れている。実験結果から, 計算効率, 忠実度, 自然性の観点から, モデルの有効性が明らかとなった。
論文参考訳（メタデータ） (2024-04-20T11:52:30Z)
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-02T22:14:29Z)
A Generative Learning Approach for Spatio-temporal Modeling in Connected Vehicular Network [55.852401381113786]
本稿では,コネクテッドカーの無線アクセス遅延を実現するための総合的時間品質フレームワークであるLaMI(Latency Model Inpainting)を提案する。 LaMIはイメージインペイントと合成のアイデアを採用し、2段階の手順で欠落したレイテンシサンプルを再構築することができる。特に、パッチ方式のアプローチを用いて各地域で収集されたサンプル間の空間的相関を初めて発見し、その後、原点および高度に相関したサンプルをバラエナオートコーダ(VAE)に供給する。
論文参考訳（メタデータ） (2020-03-16T03:43:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。