論文の概要: Conjuring Positive Pairs for Efficient Unification of Representation Learning and Image Synthesis
- arxiv url: http://arxiv.org/abs/2503.15060v2
- Date: Thu, 20 Mar 2025 15:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 12:15:00.512148
- Title: Conjuring Positive Pairs for Efficient Unification of Representation Learning and Image Synthesis
- Title(参考訳): 表現学習と画像合成を効果的に統合する肯定的ペア
- Authors: Imanol G. Estepa, Jesús M. Rodríguez-de-Vera, Ignacio Sarasúa, Bhalaji Nagarajan, Petia Radeva,
- Abstract要約: Unified Self-Supervised Learning (SSL)メソッドは、表現学習と生成モデリングのギャップを埋める。
最近のUnified SSLメソッドは、トレーニング中に外部トークン化器を必要とするセマンティックトークン再構成のみに依存している。
本稿では,新しい統合SSLフレームワークであるSorcenについて紹介する。
- 参考スコア(独自算出の注目度): 3.5900418884504095
- License:
- Abstract: While representation learning and generative modeling seek to understand visual data, unifying both domains remains unexplored. Recent Unified Self-Supervised Learning (SSL) methods have started to bridge the gap between both paradigms. However, they rely solely on semantic token reconstruction, which requires an external tokenizer during training -- introducing a significant overhead. In this work, we introduce Sorcen, a novel unified SSL framework, incorporating a synergic Contrastive-Reconstruction objective. Our Contrastive objective, "Echo Contrast", leverages the generative capabilities of Sorcen, eliminating the need for additional image crops or augmentations during training. Sorcen "generates" an echo sample in the semantic token space, forming the contrastive positive pair. Sorcen operates exclusively on precomputed tokens, eliminating the need for an online token transformation during training, thereby significantly reducing computational overhead. Extensive experiments on ImageNet-1k demonstrate that Sorcen outperforms the previous Unified SSL SoTA by 0.4%, 1.48 FID, 1.76%, and 1.53% on linear probing, unconditional image generation, few-shot learning, and transfer learning, respectively, while being 60.8% more efficient. Additionally, Sorcen surpasses previous single-crop MIM SoTA in linear probing and achieves SoTA performance in unconditional image generation, highlighting significant improvements and breakthroughs in Unified SSL models.
- Abstract(参考訳): 表現学習と生成モデリングは視覚的データを理解しようとするが、両方の領域を統合することは未解明のままである。
最近のSSL(Unified Self-Supervised Learning)メソッドは、両方のパラダイム間のギャップを埋め始めている。
しかしながら、トレーニング中に外部トークン化ツールを必要とするセマンティックトークンの再構築にのみ依存しているため、大きなオーバーヘッドが発生している。
本稿では,新しい統合SSLフレームワークであるSorcenを紹介する。
我々のコントラストであるEcho Contrastは、Sorcenの生成能力を活用し、訓練中に追加の画像作物や増量の必要性を排除します。
ソルセンは意味トークン空間のエコーサンプルを「生成」し、対照的な正の対を形成する。
Sorcenは事前計算されたトークンのみを運用し、トレーニング中のオンライントークン変換の必要性を排除し、計算オーバーヘッドを大幅に削減する。
ImageNet-1kの大規模な実験では、Sorcenは以前のUnified SSL SoTAを0.4%、FID1.48、FID1.76%、1.53%で、線形プローブ、無条件画像生成、少数ショット学習、トランスファー学習で、それぞれ60.8%の効率で上回っている。
さらに、Sorcenは、線形探索において以前のシングルクロップMIM SoTAを上回り、無条件画像生成におけるSoTAのパフォーマンスを達成し、Unified SSLモデルの大幅な改善とブレークスルーを強調している。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Contrastive Learning with Synthetic Positives [11.932323457691945]
近隣住民との対比学習は、最も効率的な自己教師付き学習(SSL)技術の1つであることが証明されている。
本稿では,NCLP(Contrastive Learning with Synthetic Positives)という新しいアプローチを提案する。
NCLPは、無条件拡散モデルによって生成された合成画像を利用して、モデルが多様な正から学ぶのに役立つ追加の正として利用する。
論文 参考訳(メタデータ) (2024-08-30T01:47:43Z) - Learning from History: Task-agnostic Model Contrastive Learning for
Image Restoration [79.04007257606862]
本稿では,対象モデル自体から負のサンプルを動的に生成する「歴史からの学習」という革新的な手法を提案する。
我々のアプローチはMCLIR(Model Contrastive Learning for Image Restoration)と呼ばれ、遅延モデルを負のモデルとして再定義し、多様な画像復元タスクと互換性を持たせる。
論文 参考訳(メタデータ) (2023-09-12T07:50:54Z) - Hallucination Improves the Performance of Unsupervised Visual
Representation Learning [9.504503675097137]
本研究では,さらにコントラストを増すために,効率よく追加の正のサンプルを生成できるHalucinatorを提案する。
Hallucinatorは識別可能で、機能領域で新しいデータを生成する。
顕著なことに,提案した幻覚器が様々な対照的な学習モデルによく当てはまることを実証的に証明する。
論文 参考訳(メタデータ) (2023-07-22T21:15:56Z) - MSR: Making Self-supervised learning Robust to Aggressive Augmentations [98.6457801252358]
本稿では,弱いペアと攻撃的なペアの役割のバランスをとることによって,意味変化の影響に対処する新たなSSLパラダイムを提案する。
我々は,BYOLを2.5%改善したResNet-50を200エポックとして,ImageNet-1Kで73.1%のTop-1精度を実現したことを示す。
論文 参考訳(メタデータ) (2022-06-04T14:27:29Z) - Crafting Better Contrastive Views for Siamese Representation Learning [20.552194081238248]
提案するContrastiveCropは,シームズ表現学習のための作物を効果的に生成する。
完全に教師なしの方法で、トレーニングプロセス内に意味を意識したオブジェクトローカライゼーション戦略を提案する。
プラグインとフレームワークに依存しないモジュールとして、ContrastiveCropはSimCLR、MoCo、BYOL、SimSiamを0.4%の精度で改善している。
論文 参考訳(メタデータ) (2022-02-07T15:09:00Z) - QK Iteration: A Self-Supervised Representation Learning Algorithm for
Image Similarity [0.0]
我々は、Facebook AI Researchが主催する2021年の画像類似度チャレンジにおいて、コピー検出の文脈において、新しいコントラッシブな自己教師型表現学習アルゴリズムを提案する。
我々のアルゴリズムは第1相のリーダーボード上で0.3401のマイクロAPスコアを達成し、ベースラインである$mu$APの0.1556よりも大幅に改善した。
論文 参考訳(メタデータ) (2021-11-15T18:01:05Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Whitening for Self-Supervised Representation Learning [129.57407186848917]
本稿では,潜在空間の特徴の白化に基づく自己教師付き表現学習(SSL)のための新しい損失関数を提案する。
我々の解は非対称なネットワークを必要とせず、概念的には単純である。
論文 参考訳(メタデータ) (2020-07-13T12:33:25Z) - Un-Mix: Rethinking Image Mixtures for Unsupervised Visual Representation
Learning [108.999497144296]
近年の先進的な教師なし学習手法では,同じ画像から2つの「ビュー」を学習表現として比較するために,サイムズ様の枠組みを用いている。
この研究は、教師なし学習においてラベル空間上の距離の概念を巻き込み、正対と負対のソフトな類似度をモデルに認識させることを目的としている。
その概念的単純さにもかかわらず、この解 -- 教師なし画像混合(Un-Mix)により、変換された入力と対応する新しいラベル空間からより微妙でより堅牢で一般化された表現を学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-11T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。