論文の概要: Latent Swap Joint Diffusion for 2D Long-Form Latent Generation
- arxiv url: http://arxiv.org/abs/2502.05130v2
- Date: Tue, 18 Mar 2025 04:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 18:44:18.415474
- Title: Latent Swap Joint Diffusion for 2D Long-Form Latent Generation
- Title(参考訳): 2次元長周期潜時発生のための潜時スワップ連成拡散
- Authors: Yusheng Dai, Chenxi Wang, Chang Li, Chen Wang, Jun Du, Kewei Li, Ruoyu Wang, Jiefeng Ma, Lei Sun, Jianqing Gao,
- Abstract要約: Swap Forward (SaFa) は、シームレスでコヒーレンスな長いスペクトルとパノラマを生成するためのモダリティに依存しない効率的な方法である。
SaFaは、既存のジョイント拡散法や、オーディオ生成におけるトレーニングベースの方法よりも大幅に優れています。
また、パノラマ生成にも適しており、2$sim$20$times$高速でモデル一般化性の向上で同等のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 38.434225760834146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Swap Forward (SaFa), a modality-agnostic and efficient method to generate seamless and coherence long spectrum and panorama through latent swap joint diffusion across multi-views. We first investigate the spectrum aliasing problem in spectrum-based audio generation caused by existing joint diffusion methods. Through a comparative analysis of the VAE latent representation of Mel-spectra and RGB images, we identify that the failure arises from excessive suppression of high-frequency components during the spectrum denoising process due to the averaging operator. To address this issue, we propose Self-Loop Latent Swap, a frame-level bidirectional swap applied to the overlapping region of adjacent views. Leveraging stepwise differentiated trajectories of adjacent subviews, this swap operator adaptively enhances high-frequency components and avoid spectrum distortion. Furthermore, to improve global cross-view consistency in non-overlapping regions, we introduce Reference-Guided Latent Swap, a unidirectional latent swap operator that provides a centralized reference trajectory to synchronize subview diffusions. By refining swap timing and intervals, we can achieve a cross-view similarity-diversity balance in a forward-only manner. Quantitative and qualitative experiments demonstrate that SaFa significantly outperforms existing joint diffusion methods and even training-based methods in audio generation using both U-Net and DiT models, along with effective longer length adaptation. It also adapts well to panorama generation, achieving comparable performance with 2 $\sim$ 20 $\times$ faster speed and greater model generalizability. More generation demos are available at https://swapforward.github.io/
- Abstract(参考訳): 本稿では,多視点にわたるラテントスワップ継手拡散によるシームレスでコヒーレンスな長スペクトルとパノラマを生成するためのモダリティ非依存かつ効率的な方法であるSwap Forward(SaFa)を紹介する。
まず,既存の共同拡散法によるスペクトルベース音声生成におけるスペクトルエイリアス問題について検討する。
平均化演算子によるスペクトルデノナイジング過程における高周波数成分の過剰な抑制から発生する故障を,メルスペクトルおよびRGB画像のVOE潜時表現の比較解析により確認した。
この問題に対処するため,隣接するビューの重なり合う領域に適用したフレームレベルの双方向スワップであるSelf-Loop Latent Swapを提案する。
隣接するサブビューの段階的に微分された軌道を利用して、このスワップ演算子は高周波成分を適応的に増強し、スペクトル歪みを避ける。
さらに、非重複領域におけるグローバルなクロスビュー一貫性を改善するために、サブビュー拡散を同期させる一方向遅延スワップ演算子であるReference-Guided Latent Swapを導入する。
スワップタイミングと間隔を精製することにより、前方のみの方法で、ビュー間の類似性と多様性のバランスを達成することができる。
定量的および定性的な実験により、SaFaはU-NetモデルとDiTモデルの両方を用いて、既存の関節拡散法やトレーニングベースの手法よりもはるかに優れており、有効長適応が可能であることが示された。
また、パノラマ生成にも適しており、2$\sim$20$\times$高速化とモデル一般化性の向上で同等のパフォーマンスを実現している。
さらなる世代のデモはhttps://swapforward.github.io/で公開されている。
関連論文リスト
- A Hybrid Wavelet-Fourier Method for Next-Generation Conditional Diffusion Models [0.0]
本稿では、拡散パラダイムをハイブリッド周波数表現に適応させる新しい生成モデリングフレームワーク、Wavelet-Fourier-Diffusionを提案する。
ハイブリッド周波数に基づく表現は,大域的コヒーレンスと微妙なテクスチャ合成の制御をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-04-04T17:11:04Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - DiMSUM: Diffusion Mamba -- A Scalable and Unified Spatial-Frequency Method for Image Generation [4.391439322050918]
拡散モデルのための新しい状態空間アーキテクチャを提案する。
入力画像の局所的特徴に対する帰納バイアスを高めるために,空間情報と周波数情報を利用する。
論文 参考訳(メタデータ) (2024-11-06T18:59:17Z) - A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - Frequency-Domain Refinement with Multiscale Diffusion for Super Resolution [7.29314801047906]
周波数領域誘導型マルチスケール拡散モデル(FDDiff)を提案する。
FDDiffは、高周波情報補完プロセスをよりきめ細かいステップに分解する。
FDDiffは高忠実度超解像率で先行生成法より優れていた。
論文 参考訳(メタデータ) (2024-05-16T11:58:52Z) - SpectralMamba: Efficient Mamba for Hyperspectral Image Classification [39.18999103115206]
リカレントニューラルネットワークとトランスフォーマーは、ハイパースペクトル(HS)イメージングにおけるほとんどの応用を支配している。
我々は、HS画像分類のための効率的なディープラーニングフレームワークを組み込んだ新しい状態空間モデルであるSpectralMambaを提案する。
SpectralMambaは、パフォーマンスと効率の両面から、驚くほど有望な勝利を生み出している。
論文 参考訳(メタデータ) (2024-04-12T14:12:03Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Spectral Enhanced Rectangle Transformer for Hyperspectral Image
Denoising [64.11157141177208]
ハイパースペクトル画像の空間的およびスペクトル的相関をモデル化するスペクトル拡張矩形変換器を提案する。
前者に対しては、長方形自己アテンションを水平および垂直に利用し、空間領域における非局所的類似性を捉える。
後者のために,空間スペクトル立方体の大域的低ランク特性を抽出し,雑音を抑制するスペクトル拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-03T09:42:13Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - Hybrid Spectral Denoising Transformer with Guided Attention [34.34075175179669]
ハイブリットスペクトルデノナイジング用ハイブリットスペクトルデノナイジングトランス(HSDT)を提案する。
我々のHSDTは、計算オーバーヘッドを低く保ちながら、既存の最先端手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-16T02:24:31Z) - DDS2M: Self-Supervised Denoising Diffusion Spatio-Spectral Model for
Hyperspectral Image Restoration [103.79030498369319]
ハイパースペクトル画像復元のための自己教師付き拡散モデルを提案する。
textttDDS2Mは、既存の拡散法と比較して、より強力な一般化能力を持っている。
HSIのノイズ除去、ノイズ除去、様々なHSIの超解像実験は、既存のタスク固有状態よりもtextttDDS2Mの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-03-12T14:57:04Z) - Exploring Invariant Representation for Visible-Infrared Person
Re-Identification [77.06940947765406]
異なるスペクトルを横断する歩行者にアイデンティティを関連付けることを目的とした、クロススペクトルの人物再識別は、モダリティの相違の主な課題に直面している。
本稿では、ロバスト機能マイニングネットワーク(RFM)と呼ばれるエンドツーエンドのハイブリッド学習フレームワークにおいて、画像レベルと特徴レベルの両方の問題に対処する。
RegDBとSYSU-MM01という2つの標準的なクロススペクトル人物識別データセットの実験結果により,最先端の性能が示された。
論文 参考訳(メタデータ) (2023-02-02T05:24:50Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。