論文の概要: Latent Swap Joint Diffusion for 2D Long-Form Latent Generation
- arxiv url: http://arxiv.org/abs/2502.05130v2
- Date: Tue, 18 Mar 2025 04:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:12:49.164296
- Title: Latent Swap Joint Diffusion for 2D Long-Form Latent Generation
- Title(参考訳): 2次元長周期潜時発生のための潜時スワップ連成拡散
- Authors: Yusheng Dai, Chenxi Wang, Chang Li, Chen Wang, Jun Du, Kewei Li, Ruoyu Wang, Jiefeng Ma, Lei Sun, Jianqing Gao,
- Abstract要約: Swap Forward (SaFa) は、シームレスでコヒーレンスな長いスペクトルとパノラマを生成するためのモダリティに依存しない効率的な方法である。
SaFaは、既存のジョイント拡散法や、オーディオ生成におけるトレーニングベースの方法よりも大幅に優れています。
また、パノラマ生成にも適しており、2$sim$20$times$高速でモデル一般化性の向上で同等のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 38.434225760834146
- License:
- Abstract: This paper introduces Swap Forward (SaFa), a modality-agnostic and efficient method to generate seamless and coherence long spectrum and panorama through latent swap joint diffusion across multi-views. We first investigate the spectrum aliasing problem in spectrum-based audio generation caused by existing joint diffusion methods. Through a comparative analysis of the VAE latent representation of Mel-spectra and RGB images, we identify that the failure arises from excessive suppression of high-frequency components during the spectrum denoising process due to the averaging operator. To address this issue, we propose Self-Loop Latent Swap, a frame-level bidirectional swap applied to the overlapping region of adjacent views. Leveraging stepwise differentiated trajectories of adjacent subviews, this swap operator adaptively enhances high-frequency components and avoid spectrum distortion. Furthermore, to improve global cross-view consistency in non-overlapping regions, we introduce Reference-Guided Latent Swap, a unidirectional latent swap operator that provides a centralized reference trajectory to synchronize subview diffusions. By refining swap timing and intervals, we can achieve a cross-view similarity-diversity balance in a forward-only manner. Quantitative and qualitative experiments demonstrate that SaFa significantly outperforms existing joint diffusion methods and even training-based methods in audio generation using both U-Net and DiT models, along with effective longer length adaptation. It also adapts well to panorama generation, achieving comparable performance with 2 $\sim$ 20 $\times$ faster speed and greater model generalizability. More generation demos are available at https://swapforward.github.io/
- Abstract(参考訳): 本稿では,多視点にわたるラテントスワップ継手拡散によるシームレスでコヒーレンスな長スペクトルとパノラマを生成するためのモダリティ非依存かつ効率的な方法であるSwap Forward(SaFa)を紹介する。
まず,既存の共同拡散法によるスペクトルベース音声生成におけるスペクトルエイリアス問題について検討する。
平均化演算子によるスペクトルデノナイジング過程における高周波数成分の過剰な抑制から発生する故障を,メルスペクトルおよびRGB画像のVOE潜時表現の比較解析により確認した。
この問題に対処するため,隣接するビューの重なり合う領域に適用したフレームレベルの双方向スワップであるSelf-Loop Latent Swapを提案する。
隣接するサブビューの段階的に微分された軌道を利用して、このスワップ演算子は高周波成分を適応的に増強し、スペクトル歪みを避ける。
さらに、非重複領域におけるグローバルなクロスビュー一貫性を改善するために、サブビュー拡散を同期させる一方向遅延スワップ演算子であるReference-Guided Latent Swapを導入する。
スワップタイミングと間隔を精製することにより、前方のみの方法で、ビュー間の類似性と多様性のバランスを達成することができる。
定量的および定性的な実験により、SaFaはU-NetモデルとDiTモデルの両方を用いて、既存の関節拡散法やトレーニングベースの手法よりもはるかに優れており、有効長適応が可能であることが示された。
また、パノラマ生成にも適しており、2$\sim$20$\times$高速化とモデル一般化性の向上で同等のパフォーマンスを実現している。
さらなる世代のデモはhttps://swapforward.github.io/で公開されている。
関連論文リスト
- Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - DiMSUM: Diffusion Mamba -- A Scalable and Unified Spatial-Frequency Method for Image Generation [4.391439322050918]
拡散モデルのための新しい状態空間アーキテクチャを提案する。
入力画像の局所的特徴に対する帰納バイアスを高めるために,空間情報と周波数情報を利用する。
論文 参考訳(メタデータ) (2024-11-06T18:59:17Z) - A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - Frequency-Domain Refinement with Multiscale Diffusion for Super Resolution [7.29314801047906]
周波数領域誘導型マルチスケール拡散モデル(FDDiff)を提案する。
FDDiffは、高周波情報補完プロセスをよりきめ細かいステップに分解する。
FDDiffは高忠実度超解像率で先行生成法より優れていた。
論文 参考訳(メタデータ) (2024-05-16T11:58:52Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures [12.703947839247693]
拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。
しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。
これは、広範囲の前方および逆拡散軌道を追跡する必要があるためである。
本稿では,これらの課題に対処するための経験的知見から着想を得た多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T17:48:09Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。