論文の概要: V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising
- arxiv url: http://arxiv.org/abs/2603.16792v1
- Date: Tue, 17 Mar 2026 17:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.439003
- Title: V-Co: A Closer Look at Visual Representation Alignment via Co-Denoising
- Title(参考訳): V-Co:コ・デノナイズによる視覚的表現のアライメントのクローズアップ
- Authors: Han Lin, Xichen Pan, Zun Wang, Yue Zhang, Chu Wang, Jaemin Cho, Mohit Bansal,
- Abstract要約: 統合JTフレームワークにおける視覚的コデノゲーションの体系的研究であるV-Coについて述べる。
本研究は,視覚的コデノジングを効果的に行うための4つの重要な要素を明らかにする。
V-Coは、基礎となる画素空間拡散ベースラインと強い前の画素拡散法より優れている。
- 参考スコア(独自算出の注目度): 65.5867130156805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pixel-space diffusion has recently re-emerged as a strong alternative to latent diffusion, enabling high-quality generation without pretrained autoencoders. However, standard pixel-space diffusion models receive relatively weak semantic supervision and are not explicitly designed to capture high-level visual structure. Recent representation-alignment methods (e.g., REPA) suggest that pretrained visual features can substantially improve diffusion training, and visual co-denoising has emerged as a promising direction for incorporating such features into the generative process. However, existing co-denoising approaches often entangle multiple design choices, making it unclear which design choices are truly essential. Therefore, we present V-Co, a systematic study of visual co-denoising in a unified JiT-based framework. This controlled setting allows us to isolate the ingredients that make visual co-denoising effective. Our study reveals four key ingredients for effective visual co-denoising. First, preserving feature-specific computation while enabling flexible cross-stream interaction motivates a fully dual-stream architecture. Second, effective classifier-free guidance (CFG) requires a structurally defined unconditional prediction. Third, stronger semantic supervision is best provided by a perceptual-drifting hybrid loss. Fourth, stable co-denoising further requires proper cross-stream calibration, which we realize through RMS-based feature rescaling. Together, these findings yield a simple recipe for visual co-denoising. Experiments on ImageNet-256 show that, at comparable model sizes, V-Co outperforms the underlying pixel-space diffusion baseline and strong prior pixel-diffusion methods while using fewer training epochs, offering practical guidance for future representation-aligned generative models.
- Abstract(参考訳): 画素空間拡散は、最近、遅延拡散の強力な代替として再燃し、事前訓練されたオートエンコーダを使わずに高品質な生成を可能にする。
しかし、標準的な画素空間拡散モデルは比較的弱い意味的監督を受けており、ハイレベルな視覚構造を捉えるように設計されていない。
最近の表現アライメント法(例えばREPA)では、事前学習した視覚的特徴は拡散訓練を著しく改善し、視覚的コデノゲーションは、そのような特徴を生成過程に組み込むための有望な方向として現れている。
しかし、既存の共同設計アプローチは、しばしば複数の設計選択を絡み合わせるため、どの設計選択が真に必須かははっきりしない。
そこで我々は,統合されたJITフレームワークにおける視覚的コデノゲーションの体系的研究であるV-Coを提案する。
この制御された設定により、視覚的コデノゲーションを効果的にするための成分を分離することができる。
本研究は,視覚的コデノジングを効果的に行うための4つの重要な要素を明らかにする。
第一に、フレキシブルなクロスストリームインタラクションを可能にしながら、機能固有の計算を保存することは、完全なデュアルストリームアーキテクチャを動機付けます。
第二に、効果的な分類器フリーガイダンス(CFG)は構造的に定義された非条件予測を必要とする。
第三に、より強力な意味的監督は、知覚的ドリフトのハイブリッド損失によって得られるのが最適である。
第4に、安定したコデノナイジングには、適切なクロスストリームキャリブレーションが必要であり、RMSベースの機能再スケーリングによって実現される。
これらの知見は共に、視覚的コデノジングの簡単なレシピを生み出している。
ImageNet-256の実験では、V-Coは、より少ないトレーニングエポックを使用しながら、基礎となるピクセル空間拡散ベースラインと強い事前拡散法を上回り、将来的な表現整列生成モデルの実用的なガイダンスを提供する。
関連論文リスト
- Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation [81.40978077888693]
対照的に、CLIP(Contrastive Language- Image Pre-training)は、下流のパフォーマンスにおいて重要なボトルネックとなっている。
近年のソリューションでは、拡散モデルを用いて、CLIP視覚トークンに画像再構成を条件付けることで表現を強化する。
我々は、より包括的な視覚表現を追求するために、コントラスト信号を拡散に基づく再構成に統合する。
論文 参考訳(メタデータ) (2026-03-05T04:45:49Z) - Prior-guided Hierarchical Instance-pixel Contrastive Learning for Ultrasound Speckle Noise Suppression [2.7777929779304955]
本稿では,先行誘導型階層型インスタンス・ピクセルコントラスト学習モデルを提案する。
統計誘導型画素レベルのコントラスト学習戦略を導入し,ノイズとクリーンな画素間の分布差を増大させる。
グローバルコンテキストモデリングのためのTransformer-CNNアーキテクチャを,微細な解剖構造復元に最適化されたCNNベースのデコーダと組み合わせ,ハイブリッドトランスフォーマー-CNNアーキテクチャを採用する。
論文 参考訳(メタデータ) (2026-02-14T16:01:58Z) - Edit2Perceive: Image Editing Diffusion Models Are Strong Dense Perceivers [55.15722080205737]
Edit2Perceiveは、深度、正規度、マッティングの編集モデルを適応させる統合拡散フレームワークである。
私たちの単一ステップの決定論的推論は、比較的小さなデータセットでトレーニングしながら、より高速なランタイムをもたらす。
論文 参考訳(メタデータ) (2025-11-24T01:13:51Z) - Prototype-Guided Diffusion: Visual Conditioning without External Memory [2.1155908599769764]
プロトタイプ拡散モデルでは、外部メモリなしで効率的な視覚条件付けを行うために、プロトタイプ学習を直接拡散プロセスに統合する。
PDMは、計算とストレージのオーバーヘッドを低減しつつ、高速な品質を維持し、拡散モデルにおける検索ベースの条件付けに代わるスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-08-13T16:18:35Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。