論文の概要: Learning from Semantic Dictionaries: Discriminative Codebook Contrastive Learning for Unified Visual Representation and Generation
- arxiv url: http://arxiv.org/abs/2605.25012v1
- Date: Sun, 24 May 2026 11:32:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.654892
- Title: Learning from Semantic Dictionaries: Discriminative Codebook Contrastive Learning for Unified Visual Representation and Generation
- Title(参考訳): 意味辞書からの学習:統一された視覚表現と生成のための識別的コードブックコントラスト学習
- Authors: Imanol G. Estepa, Jesús M Rodríguez-de-Vera, Bhalaji Nagarajan, Petia Radeva,
- Abstract要約: 識別的および生成的視覚モデルはそれぞれの領域で優れるが、意味的に不一致である。
本稿では,このギャップを埋める自己教師型フレームワークであるLEASEを紹介する。
ImageNet-1Kでは、LEASEは最先端の統一的なパフォーマンスを実現し、以前のVQGANベースの手法よりも優れている。
- 参考スコア(独自算出の注目度): 13.939029266977235
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Discriminative and generative vision models excel in their respective domains but remain semantically misaligned, hindering progress toward unified visual learning. We introduce LEASE (LEArning from SEmantic Dictionaries), a self-supervised framework that bridges this gap using a paired generative-discriminative codebook design. LEASE operates entirely in a discrete token space produced through a one-time precomputation step, enabling efficient training without data augmentations, teacher models, or online tokenizers. LEASE integrates two complementary objectives: a masked token reconstruction loss that captures fine-grained generative detail, and a codebook contrast loss that aligns encoder features with discriminative semantics via adaptive centroid weighting. This dual supervision yields a unified latent space that supports both high-quality generation and strong representation learning. On ImageNet-1K, LEASE achieves state-of-the-art unified performance, outperforming prior VQGAN-based methods such as MAGE and Sorcen across linear probing (up to +1.7%), unconditional generation (-1.26 FID and +10.19 IS w.r.t MAGE), few-shot learning (+0.56% on average against Sorcen), transfer (+0.75% average improvement against MAGE and Sorcen), and robustness benchmarks (+5.86% and +4.25% average improvement against MAGE and Sorcen, respectively). It also competes favorably with domain-specialized contrastive and generative models while surpassing previous MIM methods. The unsupervised LEASE model can also be extended to conditional generation by building upon its learned representations, proving competitive with specialized baselines. Overall, LEASE provides an efficient and effective step toward general-purpose vision models that jointly understand and generate visual content.
- Abstract(参考訳): 識別的および生成的視覚モデルは、それぞれの領域で優れているが、意味的に不一致であり、統一された視覚学習への進歩を妨げる。
LEASE(LEArning from SEmantic Dictionaries)は,このギャップを補う自己教師型フレームワークである。
LEASEは1回の事前計算ステップを通じて生成された離散トークン空間で完全に動作し、データ拡張、教師モデル、オンライントークンエーザを使わずに効率的なトレーニングを可能にする。
LEASEは2つの相補的な目的を統合している。マスク付きトークン再構成損失は細かな生成の詳細をキャプチャし、コードブックのコントラスト損失はエンコーダの特徴を適応的なセントロイド重み付けによって識別的意味論と整合させる。
この二重監督は、高品質な生成と強力な表現学習の両方をサポートする統一潜在空間をもたらす。
ImageNet-1Kでは、LEASEは、線形プローブ(最大+1.7%)、無条件生成(1.26 FIDと+10.19 IS w.r.t MAGE)、少数ショット学習(平均0.56%)、転送(MAGEとSorcenに対する平均改善率+0.75%)、堅牢性ベンチマーク(それぞれ5.86%と+4.25%)において、MAGEとSorcenのようなVQGANベースの手法よりも優れたパフォーマンスを実現している。
また、従来のMIM法を超越しながら、ドメイン特化コントラストおよび生成モデルと競合する。
教師なしLEASEモデルは、学習された表現の上に構築し、特殊なベースラインと競合することによって、条件付き生成にまで拡張することもできる。
LEASEは、視覚コンテンツを共同で理解し、生成する汎用視覚モデルに向けた、効率的かつ効果的なステップを提供する。
関連論文リスト
- DREAM: Where Visual Understanding Meets Text-to-Image Generation [28.847476510280757]
差別的・生成的目的を協調的に最適化する統合フレームワークであるDREAMを紹介する。
DREAMは72.7%の線形探索精度(CLIPよりも+1.1%)、FIDは4.25(FLUIDより6.2%)である。
その結果、識別的および生成的目的が相乗的であることが示され、視覚的理解と生成の両方において優れる統一されたマルチモーダルモデルが可能となった。
論文 参考訳(メタデータ) (2026-03-03T06:54:19Z) - On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding [53.55135022958052]
閉集合行動理解のためのGAD(Generation-Assisted Discriminative Discriminative)を提案する。
GADは微調整時にのみ動作し、MLLMの事前訓練と完全な互換性を保つ。
時間的行動理解ベンチマークの実験により、GADは生成法よりも精度と効率を向上することが示された。
論文 参考訳(メタデータ) (2026-03-03T03:02:01Z) - Variational Supervised Contrastive Learning [50.79938854370321]
本稿では,教師付きコントラスト学習を潜在クラス変数に対する変分推論として再構成した変分教師付きコントラスト学習(VarCon)を提案する。
VarConは対照的な学習フレームワークの最先端のパフォーマンスを達成し、ImageNet-1Kでは79.36%、CIFAR-100では78.29%、ResNet-50エンコーダでは78.29%に達した。
論文 参考訳(メタデータ) (2025-06-09T04:19:12Z) - DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - Conjuring Positive Pairs for Efficient Unification of Representation Learning and Image Synthesis [3.5900418884504095]
Unified Self-Supervised Learning (SSL)メソッドは、表現学習と生成モデリングのギャップを埋める。
最近のUnified SSLメソッドは、トレーニング中に外部トークン化器を必要とするセマンティックトークン再構成のみに依存している。
本稿では,新しい統合SSLフレームワークであるSorcenについて紹介する。
論文 参考訳(メタデータ) (2025-03-19T09:53:11Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Adversarial Dual-Student with Differentiable Spatial Warping for
Semi-Supervised Semantic Segmentation [70.2166826794421]
本研究では、教師なしデータ拡張を行うために、微分可能な幾何ワープを提案する。
また,平均教師数を改善するために,新しい対角的二重学習フレームワークを提案する。
我々のソリューションは、両方のデータセットで得られるパフォーマンスと最先端の結果を大幅に改善します。
論文 参考訳(メタデータ) (2022-03-05T17:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。