論文の概要: Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation
- arxiv url: http://arxiv.org/abs/2603.04803v1
- Date: Thu, 05 Mar 2026 04:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.071212
- Title: Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation
- Title(参考訳): バランスの取れた視覚表現のためのコントラスト信号を用いた拡散に基づく再構成誘導
- Authors: Boyu Han, Qianqian Xu, Shilong Bao, Zhiyong Yang, Ruochen Cui, Xilin Zhao, Qingming Huang,
- Abstract要約: 対照的に、CLIP(Contrastive Language- Image Pre-training)は、下流のパフォーマンスにおいて重要なボトルネックとなっている。
近年のソリューションでは、拡散モデルを用いて、CLIP視覚トークンに画像再構成を条件付けることで表現を強化する。
我々は、より包括的な視覚表現を追求するために、コントラスト信号を拡散に基づく再構成に統合する。
- 参考スコア(独自算出の注目度): 81.40978077888693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The limited understanding capacity of the visual encoder in Contrastive Language-Image Pre-training (CLIP) has become a key bottleneck for downstream performance. This capacity includes both Discriminative Ability (D-Ability), which reflects class separability, and Detail Perceptual Ability (P-Ability), which focuses on fine-grained visual cues. Recent solutions use diffusion models to enhance representations by conditioning image reconstruction on CLIP visual tokens. We argue that such paradigms may compromise D-Ability and therefore fail to effectively address CLIP's representation limitations. To address this, we integrate contrastive signals into diffusion-based reconstruction to pursue more comprehensive visual representations. We begin with a straightforward design that augments the diffusion process with contrastive learning on input images. However, empirical results show that the naive combination suffers from gradient conflict and yields suboptimal performance. To balance the optimization, we introduce the Diffusion Contrastive Reconstruction (DCR), which unifies the learning objective. The key idea is to inject contrastive signals derived from each reconstructed image, rather than from the original input, into the diffusion process. Our theoretical analysis shows that the DCR loss can jointly optimize D-Ability and P-Ability. Extensive experiments across various benchmarks and multi-modal large language models validate the effectiveness of our method. The code is available at https://github.com/boyuh/DCR.
- Abstract(参考訳): Contrastive Language-Image Pre-Training(CLIP)における視覚エンコーダの理解能力の制限は、下流のパフォーマンスにおいて重要なボトルネックとなっている。
この能力には、クラス分離性を反映した識別能力(D-Ability)と、きめ細かい視覚的手がかりに焦点を当てた詳細知覚能力(P-Ability)の両方が含まれる。
近年のソリューションでは、拡散モデルを用いて、CLIP視覚トークンに画像再構成を条件付けることで表現を強化する。
このようなパラダイムはD-Abilityを損なう可能性があるため、CLIPの表現制限に効果的に対応できない。
これを解決するために、コントラスト信号を拡散に基づく再構成に統合し、より包括的な視覚表現を追求する。
入力画像のコントラスト学習により拡散過程を増大させる簡単な設計から始める。
しかし, 実験結果から, ナイーブの組み合わせは勾配の衝突に悩まされ, 準最適性能が得られることが示された。
最適化のバランスをとるために,DCR(Diffusion Contrastive Reconstruction)を導入し,学習目標を統一する。
鍵となるアイデアは、元の入力からではなく、再構成された各画像から導出されるコントラスト信号を拡散過程に注入することである。
理論的解析により,DCR損失はD-AbilityとP-Abilityを協調的に最適化できることが示された。
様々なベンチマークやマルチモーダルな大規模言語モデルによる大規模な実験により,本手法の有効性が検証された。
コードはhttps://github.com/boyuh/DCRで公開されている。
関連論文リスト
- ReLAPSe: Reinforcement-Learning-trained Adversarial Prompt Search for Erased concepts in unlearned diffusion models [12.021923446217722]
マシン・アンラーニングは、テキスト・ツー・イメージ拡散モデルから不正な概念を取り除くための鍵となる防御メカニズムである。
この漏洩を悪用する既存の敵のアプローチは、基本的な制限によって制約される。
本稿では,ReLAPSeについて紹介する。ReLAPSeは,概念回復を強化学習問題として再編成する政策ベースの敵対的枠組みである。
論文 参考訳(メタデータ) (2026-01-30T21:56:50Z) - Eliminating Hallucination in Diffusion-Augmented Interactive Text-to-Image Retrieval [11.644783748459787]
Diffusion-Augmented Interactive Text-to-Image Retrieval (DAI-TIR) は,拡散モデルによるクエリ画像の生成により検索性能を向上させる,有望なパラダイムである。
本稿では,DAI-TIRをクエリ意図と対象画像の表現に対する共同最適化として用いた,幻覚ロバスト学習フレームワークであるDiffusion-Aware Multi-view Contrastive Learning (DMCL)を提案する。
論文 参考訳(メタデータ) (2026-01-28T08:58:57Z) - Diffusion-Augmented Contrastive Learning: A Noise-Robust Encoder for Biosignal Representations [0.4061135251278187]
本稿では,拡散モデルと教師付きコントラスト学習の概念を融合した,拡散拡張コントラスト学習(DACL)を提案する。
Scattering Transformer(ST)機能に基づいてトレーニングされた軽量変分オートエンコーダ(VAE)によって作成された潜時空間で動作する。
U-Netスタイルのエンコーダは、教師付きコントラスト目標を用いて訓練され、様々な拡散時間ステップでクラス識別とノイズとの堅牢性のバランスをとる表現を学ぶ。
論文 参考訳(メタデータ) (2025-09-24T12:15:35Z) - One-Step Diffusion-based Real-World Image Super-Resolution with Visual Perception Distillation [53.24542646616045]
画像超解像(SR)生成に特化して設計された新しい視覚知覚拡散蒸留フレームワークであるVPD-SRを提案する。
VPD-SRは2つのコンポーネントから構成される: 明示的セマンティック・アウェア・スーパービジョン(ESS)と高周波知覚(HFP)損失。
提案したVPD-SRは,従来の最先端手法と教師モデルの両方と比較して,たった1ステップのサンプリングで優れた性能が得られる。
論文 参考訳(メタデータ) (2025-06-03T08:28:13Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack [51.16384207202798]
視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である
従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。
本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
論文 参考訳(メタデータ) (2024-11-04T23:07:51Z) - Sample what you cant compress [4.950746640609865]
拡散に基づく損失の下で、連続エンコーダとデコーダの学習方法を示す。
提案手法は,GANベースのオートエンコーダと比較して,再構築品質が向上することを示す。
また, 得られた表現は, 最先端のGANに基づく損失から得られた表現と比較して, 潜時拡散モデルによりモデル化し易いことを示す。
論文 参考訳(メタデータ) (2024-09-04T08:42:42Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z) - Combining Reconstruction and Contrastive Methods for Multimodal Representations in RL [16.792949555151978]
再構成や対照的な損失を用いた自己教師型表現の学習は、画像ベース・マルチモーダル強化学習(RL)の性能とサンプルの複雑さを向上させる
ここでは、異なる自己教師付き損失関数は、基礎となるセンサのモジュラリティの情報密度によって異なる利点と制限を有する。
コントラスト的再構成集約表現学習(CoRAL)を提案する。このフレームワークは,各センサのモダリティに対して,最も適切な自己管理的損失を選択することができる。
論文 参考訳(メタデータ) (2023-02-10T15:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。