論文の概要: Latent Swap Joint Diffusion for Long-Form Audio Generation
- arxiv url: http://arxiv.org/abs/2502.05130v1
- Date: Fri, 07 Feb 2025 18:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:15.310101
- Title: Latent Swap Joint Diffusion for Long-Form Audio Generation
- Title(参考訳): 長期音声生成のための潜時スワップ関節拡散
- Authors: Yusheng Dai, Chenxi Wang, Chang Li, Chen Wang, Jun Du, Kewei Li, Ruoyu Wang, Jiefeng Ma, Lei Sun, Jianqing Gao,
- Abstract要約: Swap Forwardは、フレームレベルの遅延スワップフレームワークで、フォワードのみの方法で、よりスペクトルの詳細なグローバルコヒーレントなロングオーディオを生成する。
実験により、SaFaは既存のジョイント拡散法やトレーニングベースのロングオーディオ生成モデルよりも大幅に優れていることが示された。
またパノラマ生成にも適しており、高い効率とモデル一般化性で同等の最先端性能を達成できる。
- 参考スコア(独自算出の注目度): 38.434225760834146
- License:
- Abstract: Previous work on long-form audio generation using global-view diffusion or iterative generation demands significant training or inference costs. While recent advancements in multi-view joint diffusion for panoramic generation provide an efficient option, they struggle with spectrum generation with severe overlap distortions and high cross-view consistency costs. We initially explore this phenomenon through the connectivity inheritance of latent maps and uncover that averaging operations excessively smooth the high-frequency components of the latent map. To address these issues, we propose Swap Forward (SaFa), a frame-level latent swap framework that synchronizes multiple diffusions to produce a globally coherent long audio with more spectrum details in a forward-only manner. At its core, the bidirectional Self-Loop Latent Swap is applied between adjacent views, leveraging stepwise diffusion trajectory to adaptively enhance high-frequency components without disrupting low-frequency components. Furthermore, to ensure cross-view consistency, the unidirectional Reference-Guided Latent Swap is applied between the reference and the non-overlap regions of each subview during the early stages, providing centralized trajectory guidance. Quantitative and qualitative experiments demonstrate that SaFa significantly outperforms existing joint diffusion methods and even training-based long audio generation models. Moreover, we find that it also adapts well to panoramic generation, achieving comparable state-of-the-art performance with greater efficiency and model generalizability. Project page is available at https://swapforward.github.io/.
- Abstract(参考訳): 従来,グローバルビュー拡散や反復生成による長大な音声生成には,大幅なトレーニングや推論のコストが要求されていた。
パノラマ生成のための多視点共同拡散の最近の進歩は効率的な選択肢であるが、重度の重複歪みと高いクロスビュー整合コストを伴うスペクトル生成に苦慮している。
まず、潜伏マップの接続継承を通してこの現象を探求し、平均演算が潜伏マップの高周波成分を過度に滑らかにすることを明らかにする。
これらの問題に対処するため,フレームレベルの遅延スワップフレームワークであるSwap Forward (SaFa)を提案する。
中心となる2方向の自己ループ遅延スワップは隣接するビュー間で適用され、段階的な拡散軌道を利用して低周波成分を乱すことなく高周波成分を適応的に増強する。
さらに、クロスビュー整合性を確保するため、各サブビューの参照領域と非オーバーラップ領域との間に一方向参照ガイドラテントスワップを適用し、集中的な軌道案内を提供する。
定量的および定性的実験により、SaFaは既存のジョイント拡散法やトレーニングベースのロングオーディオ生成モデルよりも大幅に優れていることが示された。
さらに、パノラマ生成にも適応し、高い効率とモデル一般化性で同等の最先端性能を実現する。
プロジェクトページはhttps://swapforward.github.io/.comで公開されている。
関連論文リスト
- Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - DiMSUM: Diffusion Mamba -- A Scalable and Unified Spatial-Frequency Method for Image Generation [4.391439322050918]
拡散モデルのための新しい状態空間アーキテクチャを提案する。
入力画像の局所的特徴に対する帰納バイアスを高めるために,空間情報と周波数情報を利用する。
論文 参考訳(メタデータ) (2024-11-06T18:59:17Z) - A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - Frequency-Domain Refinement with Multiscale Diffusion for Super Resolution [7.29314801047906]
周波数領域誘導型マルチスケール拡散モデル(FDDiff)を提案する。
FDDiffは、高周波情報補完プロセスをよりきめ細かいステップに分解する。
FDDiffは高忠実度超解像率で先行生成法より優れていた。
論文 参考訳(メタデータ) (2024-05-16T11:58:52Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T17:48:09Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。