論文の概要: LiveBand: Live Accompaniment Generation in the Audio Domain
- arxiv url: http://arxiv.org/abs/2606.03803v2
- Date: Tue, 09 Jun 2026 17:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.929322
- Title: LiveBand: Live Accompaniment Generation in the Audio Domain
- Title(参考訳): LiveBand:オーディオドメインでのライブ伴奏生成
- Authors: Marco Pasini, Javier Nistal, Ben Hayes, Mathias Rose Bjare, Stefan Lattner, George Fazekas,
- Abstract要約: ライブ音声入力のための高忠実度音楽伴奏をリアルタイムに生成するLiveBandを提案する。
本手法は,事前学習した因果音響オートエンコーダの連続潜時空間における因果トランスフォーマジェネレータを訓練する。
- 参考スコア(独自算出の注目度): 9.36508606133213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LiveBand, a real-time system that generates high-fidelity music accompaniments to live audio input, respecting strict causal constraints. Our method trains a causal transformer generator in the continuous latent space of a pre-trained causal audio autoencoder, using adversarial sequence-level supervision from a discriminator. At each timestep, the generator receives only the causally available mix context and Gaussian noise, and predicts accompaniment latents without access to future mix frames or ground-truth target latents. Training is performed in a single parallel forward pass under causal masking, while streaming inference proceeds autoregressively with a rolling attention state. The model's training and inference computations are matched by design, eliminating teacher forcing and the associated exposure bias. On a multi-instrument music accompaniment benchmark, LiveBand improves over prior work on objective measures of audio quality, beat alignment, and mix adherence, while enabling real-time streaming generation without lookahead into the future on consumer hardware.
- Abstract(参考訳): 厳密な因果制約に配慮したライブ音声入力に高忠実度音楽伴奏を生成するリアルタイムシステムであるLiveBandを提案する。
本手法は,識別器からの逆数列レベルの監視を用いて,事前学習した因果音声オートエンコーダの連続潜時空間で因果トランスフォーマジェネレータを訓練する。
各タイミングで、ジェネレータは、因果的に利用可能なミックスコンテキストとガウスノイズのみを受信し、将来のミックスフレームや接地目標ラテントにアクセスせずに伴奏ラテントを予測する。
ストリーミング推論は、ローリングアテンション状態とともに自己回帰的に進行する一方で、因果マスキングの下で単一の平行フォワードパスでトレーニングを行う。
モデルのトレーニングと推論の計算は設計によって一致し、教師の強制力と関連する露出バイアスを排除します。
マルチインストルメント音楽伴奏ベンチマークでは、LiveBandは、オーディオ品質、ビートアライメント、ミックスアテンデンスといった客観的尺度の事前の作業を改善するとともに、コンシューマーハードウェアの将来に目を向けることなくリアルタイムストリーミング生成を可能にする。
関連論文リスト
- DiscoForcing: A Unified Framework for Real-Time Audio-Driven Character Control with Diffusion Forcing [27.626489251186968]
ストリーミングオーディオ駆動拡散フレームワークであるDiscoForcingを紹介する。
不均一ノイズレベル下で訓練された拡散強制シーケンスモデルを用いて、リズミカル構造と位相ダイナミクスをキャプチャする。
因果関係や遅延制約にマッチしたベースラインよりも、より安定したロングホライゾンロールアウトとオーディオモーションアライメントを提供する。
論文 参考訳(メタデータ) (2026-05-27T13:47:40Z) - RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO [53.38929612273108]
因果自己回帰ビデオ拡散モデルは、以前生成されたコンテンツから将来のチャンクを外挿することでリアルタイムストリーミング生成をサポートする。
本稿では,リアルタイム自動回帰ビデオ補間ネットワーク(RAVEN)を紹介した。これは,各自己ロールアウトを,クリーンな歴史的エンドポイントのインターリーブシーケンスに再パッケージするトレーニングタイムテストフレームワークである。
論文 参考訳(メタデータ) (2026-05-14T17:59:30Z) - CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing [76.74048814837336]
映画ダビングは、ターゲット映像中の唇の動きと同期しながら、参照音声の音声アイデンティティを保持する音声を合成することを目的としている。
既存の方法は正確なリップシンクを達成できず、持続時間レベルでの明示的なアライメントによって自然性を欠いている。
認知同期拡散変換器(CoSync-DiT)により駆動される新しいフローマッチング型フィルムダビングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T05:03:57Z) - Towards Real-Time Human-AI Musical Co-Performance: Accompaniment Generation with Latent Diffusion Models and MAX/MSP [10.7598634894472]
本稿では,リアルタイムな人間-AI音楽の協調演奏のための枠組みについて述べる。
このシステムは、MAX/MSPのフロントエンド処理によるリアルタイムオーディオ入力、バッファリング、再生を、OSC/UDPメッセージを介して通信する生成モデルを実行するPython推論サーバと組み合わせる。
論文 参考訳(メタデータ) (2026-04-08T21:30:05Z) - OmniForcing: Unleashing Real-time Joint Audio-Visual Generation [51.031726911410594]
最近のジョイントオーディオ・視覚拡散モデルは、優れた生成品質を実現するが、高いレイテンシーに悩まされる。
OmniForcingは、オフラインの双方向拡散モデルを高忠実度ストリーミングオートレジェネレータに蒸留する最初のフレームワークである。
論文 参考訳(メタデータ) (2026-03-12T08:17:36Z) - Conditional Flow Matching for Visually-Guided Acoustic Highlighting [10.241097929338366]
視覚的に誘導された音響ハイライトは、付随するビデオとオーディオのバランスを調整し、一貫性のあるオーディオ視覚体験を作り出す。
既存のアプローチでは、オーディオリミックスの本来の曖昧さに苦しむ差別モデルを使用している。
この制限に対処するために、条件付きフローマッチング(CFM)フレームワークを導入します。
論文 参考訳(メタデータ) (2026-02-03T17:24:47Z) - Efficient and Fast Generative-Based Singing Voice Separation using a Latent Diffusion Model [12.393086516044866]
本研究では, このギャップを埋めるための拡散モデルの可能性について検討する。
本研究は,声帯と混合音の対に依存する歌唱音声の分離に焦点をあてる。
システムは、コンパクトなラテント空間に符号化されたサンプルを生成し、その後、それらをオーディオに復号する。
論文 参考訳(メタデータ) (2025-11-25T16:34:07Z) - StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation [91.45910771331741]
オーディオ駆動型アバタービデオ生成のための現在の拡散モデルでは、自然な音声同期とアイデンティティの整合性を備えた長ビデオの合成が困難である。
本稿では,無限長高画質映像を後処理なしで合成する最初のエンドツーエンドビデオ拡散変換器であるStableAvatarについて述べる。
論文 参考訳(メタデータ) (2025-08-11T17:58:24Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - Bass Accompaniment Generation via Latent Diffusion [0.0]
任意の長さのミキシングに付随する単一茎を生成する制御可能なシステムを提案する。
本手法のコアとなるのは、音声波形サンプルを効率よく非可逆な潜在表現に圧縮するオーディオオートエンコーダである。
制御可能な条件付きオーディオ生成フレームワークは、音楽制作においてミュージシャンを支援するための生成AIツールを作成する上で、大きな前進となる。
論文 参考訳(メタデータ) (2024-02-02T13:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。