論文の概要: Coevolving Representations in Joint Image-Feature Diffusion
- arxiv url: http://arxiv.org/abs/2604.17492v1
- Date: Sun, 19 Apr 2026 15:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.552794
- Title: Coevolving Representations in Joint Image-Feature Diffusion
- Title(参考訳): 共同画像-特徴拡散における共進化表現
- Authors: Theodoros Kouzelis, Spyros Gidaris, Nikos Komodakis,
- Abstract要約: 拡散を導く表現空間は、それ自体が生成タスクに適応すべきである。
学習中に意味表現空間が進化するフレームワークであるCoevolving Diffusion Representation (CoReDi)を提案する。
実験により、CoReDiは、固定表現空間で動作する連成拡散モデルと比較して、より高速な収束とより高いサンプル品質を実現することが示された。
- 参考スコア(独自算出の注目度): 13.292849179066993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Joint image-feature generative modeling has recently emerged as an effective strategy for improving diffusion training by coupling low-level VAE latents with high-level semantic features extracted from pre-trained visual encoders. However, existing approaches rely on a fixed representation space, constructed independently of the generative objective and kept unchanged during training. We argue that the representation space guiding diffusion should itself adapt to the generative task. To this end, we propose Coevolving Representation Diffusion (CoReDi), a framework in which the semantic representation space evolves during training by learning a lightweight linear projection jointly with the diffusion model. While naively optimizing this projection leads to degenerate solutions, we show that stable coevolution can be achieved through a combination of stop-gradient targets, normalization, and targeted regularization that prevents feature collapse. This formulation enables the semantic space to progressively specialize to the needs of image synthesis, improving its complementarity with image latents. We apply CoReDi to both VAE latent diffusion and pixel-space diffusion, demonstrating that adaptive semantic representations improve generative modeling across both settings. Experiments show that CoReDi achieves faster convergence and higher sample quality compared to joint diffusion models operating in fixed representation spaces.
- Abstract(参考訳): 統合画像合成モデリングは, 事前学習した視覚エンコーダから抽出した高レベルな意味特徴と低レベルなVAEラプタントを結合させることにより, 拡散訓練を改善する効果的な手法として最近登場した。
しかし、既存のアプローチは、生成目的とは独立に構築され、訓練中に変化しない固定表現空間に依存している。
拡散を導く表現空間は、それ自体が生成タスクに適応すべきである。
この目的のために,拡散モデルと協調して軽量な線形射影を学習することにより,意味表現空間が訓練中に進化するフレームワークであるCoevolving Representation Diffusion(CoReDi)を提案する。
このプロジェクションを自然に最適化すると解が縮退するが、安定な共進化は停止段階の目標、正規化、特徴の崩壊を防ぐ目標正規化の組み合わせによって達成できることを示す。
この定式化により、セマンティック空間は、画像合成の必要性を徐々に専門化し、画像潜在者との相補性を向上させることができる。
本稿では,VAE潜在拡散と画素空間拡散の両方にCoReDiを適用し,適応的意味表現が両設定間の生成モデリングを改善することを示す。
実験により、CoReDiは、固定表現空間で動作する連成拡散モデルと比較して、より高速な収束とより高いサンプル品質を実現することが示された。
関連論文リスト
- RPiAE: A Representation-Pivoted Autoencoder Enhancing Both Image Generation and Editing [37.46832944462102]
拡散モデルは画像生成と編集において支配的なパラダイムとなっている。
近年、事前に訓練された視覚表現モデルをトークンライザとして活用しようとする試みは、拡散特徴を表現特徴に整合させるか、凍結トークンライザとして直接表現エンコーダを再利用するかのいずれかである。
生成と編集の両方を改善する表現ベースのトークン化器であるRepresentation-Pivoted AutoEncoderを提案する。
論文 参考訳(メタデータ) (2026-03-19T17:54:43Z) - V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising [65.5867130156805]
統合JTフレームワークにおける視覚的コデノゲーションの体系的研究であるV-Coについて述べる。
本研究は,視覚的コデノジングを効果的に行うための4つの重要な要素を明らかにする。
V-Coは、基礎となる画素空間拡散ベースラインと強い前の画素拡散法より優れている。
論文 参考訳(メタデータ) (2026-03-17T17:01:54Z) - Training-Free Representation Guidance for Diffusion Models with a Representation Alignment Projector [14.027059904924135]
本稿では,プロジェクタによって予測される表現を中間サンプリングステップに注入するアライメントアライメントプロジェクタを提案する。
SiTとREPAの実験は、クラス条件の画像ネット合成において顕著に改善されている。
提案手法は,SiTモデルに適用した場合の代表的なガイダンスより優れる。
論文 参考訳(メタデータ) (2026-01-30T02:29:54Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - From Missing Pieces to Masterpieces: Image Completion with Context-Adaptive Diffusion [98.31811240195324]
ConFillは、各拡散ステップで生成された画像とオリジナル画像の差を小さくする新しいフレームワークである。
現行の手法より優れており、画像補完の新しいベンチマークが設定されている。
論文 参考訳(メタデータ) (2025-04-19T13:40:46Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。