論文の概要: REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion
- arxiv url: http://arxiv.org/abs/2512.16636v1
- Date: Thu, 18 Dec 2025 15:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.116359
- Title: REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion
- Title(参考訳): 絡み合った拡散のためのグローバルおよびローカルセマンティクスによる潜伏者のREGLUE
- Authors: Giorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou,
- Abstract要約: 本稿では,統合潜在拡散フレームワークREGLUEを紹介する。
軽量な畳み込み意味論は、多層VFM特徴を低次元空間構造表現に集約する。
ImageNet 256x256では、REGLUEは一貫して、REPA、ReDi、REGと同様に、SiT-B/2およびSiT-XL/2ベースラインのFIDと収束を改善している。
- 参考スコア(独自算出の注目度): 11.138412313646995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent diffusion models (LDMs) achieve state-of-the-art image synthesis, yet their reconstruction-style denoising objective provides only indirect semantic supervision: high-level semantics emerge slowly, requiring longer training and limiting sample quality. Recent works inject semantics from Vision Foundation Models (VFMs) either externally via representation alignment or internally by jointly modeling only a narrow slice of VFM features inside the diffusion process, under-utilizing the rich, nonlinear, multi-layer spatial semantics available. We introduce REGLUE (Representation Entanglement with Global-Local Unified Encoding), a unified latent diffusion framework that jointly models (i) VAE image latents, (ii) compact local (patch-level) VFM semantics, and (iii) a global (image-level) [CLS] token within a single SiT backbone. A lightweight convolutional semantic compressor nonlinearly aggregates multi-layer VFM features into a low-dimensional, spatially structured representation, which is entangled with the VAE latents in the diffusion process. An external alignment loss further regularizes internal representations toward frozen VFM targets. On ImageNet 256x256, REGLUE consistently improves FID and accelerates convergence over SiT-B/2 and SiT-XL/2 baselines, as well as over REPA, ReDi, and REG. Extensive experiments show that (a) spatial VFM semantics are crucial, (b) non-linear compression is key to unlocking their full benefit, and (c) global tokens and external alignment act as complementary, lightweight enhancements within our global-local-latent joint modeling framework. The code is available at https://github.com/giorgospets/reglue .
- Abstract(参考訳): 遅延拡散モデル(LDM)は、最先端の画像合成を実現するが、その再構成スタイルのデノベーション目的は、間接的なセマンティック監視のみを提供する: 高いレベルのセマンティクスは徐々に出現し、より長いトレーニングとサンプルの品質の制限を必要とする。
最近の研究は、視覚基礎モデル(VFM)から、表現アライメントを介して外部または内部的に、拡散過程内の狭いVFM特徴のみをモデリングし、利用可能なリッチで非線形で多層的な空間意味論を未利用にすることによって、セマンティクスを注入している。
共同モデルを用いた統合潜在拡散フレームワークREGLUE(Representation Entanglement with Global-Local Unified Encoding)を紹介する。
(i)VAE画像潜像装置
(ii)コンパクト局所(パッチレベル)VFMセマンティクス、及び
(iii)単一のSiTバックボーン内のグローバル(イメージレベル)[CLS]トークン。
軽量な畳み込みセマンティック圧縮機は、拡散過程においてVAEラテントと絡み合う低次元空間構造表現に多層VFM特徴を非線形に集約する。
外部アライメント損失は、凍結されたVFMターゲットに対する内部表現をさらに規則化する。
ImageNet 256x256では、REGLUEは一貫してFIDを改善し、SiT-B/2とSiT-XL/2のベースラインとREPA、ReDi、REGのコンバージェンスを加速する。
大規模な実験は
(a)空間的VFM意味論は重要である。
(b)非線形圧縮は、その全利益を解放する鍵であり、
(c)グローバルトークンと外部アライメントは、我々のグローバルローカル-ローカル-ラテン共同モデリングフレームワークにおいて補完的で軽量な拡張として機能します。
コードはhttps://github.com/giorgospets/reglue で公開されている。
関連論文リスト
- LUMA: Low-Dimension Unified Motion Alignment with Dual-Path Anchoring for Text-to-Motion Diffusion Model [18.564067196226436]
本稿では,2経路アンカーを組み込んだテキスト・ツー・モーション拡散モデルを提案し,セマンティックアライメントを強化する。
FIDスコアはそれぞれ0.035と0.123である。
論文 参考訳(メタデータ) (2025-09-29T17:58:28Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Cross Paradigm Representation and Alignment Transformer for Image Deraining [40.66823807648992]
クロスパラダイム表現・アライメント変換器(CPRAformer)を提案する。
その中心となる考え方は階層的な表現とアライメントであり、両方のパラダイムの強みを活用して画像再構成を支援する。
トランスフォーマーブロックでは,スパースプロンプトチャネル自己アテンション(SPC-SA)と空間画素改善自己アテンション(SPR-SA)の2種類の自己アテンションを使用する。
論文 参考訳(メタデータ) (2025-04-23T06:44:46Z) - MS-Occ: Multi-Stage LiDAR-Camera Fusion for 3D Semantic Occupancy Prediction [15.656771219382076]
MS-Occは、新しいマルチステージLiDARカメラ融合フレームワークである。
これはLiDARの幾何学的忠実度とカメラベースのセマンティックリッチネスを統合する。
実験の結果、MS-Occは連合(IoU)を32.1%、平均IoU(mIoU)を25.3%で割った。
論文 参考訳(メタデータ) (2025-04-22T13:33:26Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。