論文の概要: Efficient Vocal-Conditioned Music Generation via Soft Alignment Attention and Latent Diffusion
- arxiv url: http://arxiv.org/abs/2507.19991v1
- Date: Sat, 26 Jul 2025 16:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.658739
- Title: Efficient Vocal-Conditioned Music Generation via Soft Alignment Attention and Latent Diffusion
- Title(参考訳): ソフトアライメントアテンションと潜時拡散による音声合成の効率化
- Authors: Hei Shing Cheung, Boya Zhang,
- Abstract要約: 声調伴奏生成のための軽量潜時拡散モデルを提案する。
このモデルは、52倍高速な推論を実現しつつ、最先端システムと比較して220倍のパラメータ削減を実現している。
超軽量アーキテクチャは、コンシューマハードウェアへのリアルタイムデプロイメントを可能にし、インタラクティブなアプリケーションやリソース制約のある環境に対してAI支援の音楽作成を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a lightweight latent diffusion model for vocal-conditioned musical accompaniment generation that addresses critical limitations in existing music AI systems. Our approach introduces a novel soft alignment attention mechanism that adaptively combines local and global temporal dependencies based on diffusion timesteps, enabling efficient capture of multi- scale musical structure. Operating in the compressed latent space of a pre-trained variational autoencoder, the model achieves a 220 times parameter reduction compared to state-of-the-art systems while delivering 52 times faster inference. Experimental evaluation demonstrates competitive performance with only 15M parame- ters, outperforming OpenAI Jukebox in production quality and content unity while maintaining reasonable musical coherence. The ultra-lightweight architecture enables real-time deployment on consumer hardware, making AI-assisted music creation ac- cessible for interactive applications and resource-constrained environments.
- Abstract(参考訳): 本稿では,既存の音楽AIシステムにおいて重要な制約に対処する,声調伴奏生成のための軽量潜時拡散モデルを提案する。
提案手法では,拡散時間ステップに基づく局所的・大域的時間的依存関係を適応的に結合するソフトアライメントアテンションアテンション機構を導入し,マルチスケールの音楽構造を効率的に捕捉する。
事前訓練された変分オートエンコーダの圧縮潜時空間で動作するモデルでは,52倍高速な推論を実現するとともに,最先端システムに比べて220倍のパラメータ削減を実現している。
実験により,楽音の整合性を維持しつつ,生産品質とコンテントの統一性でOpenAI Jukeboxを上回る性能を示した。
超軽量アーキテクチャは、コンシューマハードウェアへのリアルタイムデプロイメントを可能にし、インタラクティブなアプリケーションやリソース制約のある環境に対してAI支援の音楽作成を可能にする。
関連論文リスト
- RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer [36.828476646865305]
RAP(Real-time Audio-driven Portrait animation)は,リアルタイム制約下で高品質な音声画像を生成するための統合フレームワークである。
RAPは正確な音声駆動制御を実現し、長期の時間的ドリフトを緩和し、高い視力を維持する。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。
画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文 参考訳(メタデータ) (2025-07-15T08:44:11Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - Designing Neural Synthesizers for Low-Latency Interaction [8.27756937768806]
対話型ニューラルオーディオ合成(NAS)モデルで典型的に見られる遅延源とジッタについて検討する。
次に、この解析を畳み込み変分オートエンコーダであるRAVEを用いて音色伝達のタスクに適用する。
これは、私たちがBRAVEと呼ぶ低レイテンシで、ピッチと大音量の再現性が向上したモデルで終わる。
論文 参考訳(メタデータ) (2025-03-14T16:30:31Z) - ReaLJam: Real-Time Human-AI Music Jamming with Reinforcement Learning-Tuned Transformers [53.63950017886757]
ReaLJamは、人間とトランスフォーマーをベースとしたAIエージェントが強化学習でトレーニングしたライブ音楽ジャミングセッションのためのインタフェースとプロトコルである。
エージェントが継続的にパフォーマンスを予測し,ユーザに対してその計画を視覚的に伝達する,予測という概念を用いてリアルタイムインタラクションを可能にする。
論文 参考訳(メタデータ) (2025-02-28T17:42:58Z) - DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation [43.61383132919089]
制御可能な音楽生成方法は、人間中心のAIベースの音楽生成に不可欠である。
DITTO-2(Distilled Diffusion Inference-Time T-Optimization)を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:40:11Z) - Music Consistency Models [31.415900049111023]
本稿では,音楽クリップのメル-スペクトログラムを効率よく合成するために,一貫性モデルの概念を活用する音楽一貫性モデル(textttMusicCM)を提案する。
既存のテキストから音楽への拡散モデルに基づいて、textttMusicCMモデルは、一貫性の蒸留と逆微分器の訓練を取り入れている。
実験結果から, 計算効率, 忠実度, 自然性の観点から, モデルの有効性が明らかとなった。
論文 参考訳(メタデータ) (2024-04-20T11:52:30Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。