論文の概要: MixDiff: Mixing Natural and Synthetic Images for Robust Self-Supervised Representations
- arxiv url: http://arxiv.org/abs/2406.12368v2
- Date: Thu, 05 Dec 2024 04:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:37:22.366486
- Title: MixDiff: Mixing Natural and Synthetic Images for Robust Self-Supervised Representations
- Title(参考訳): MixDiff:ロバストな自己監督表現のための自然画像と合成画像の混合
- Authors: Reza Akbarian Bafghi, Nidhin Harilal, Claire Monteleoni, Maziar Raissi,
- Abstract要約: MixDiffは、実画像と合成画像を組み合わせた、新たな自己教師型学習(SSL)事前トレーニングフレームワークである。
私たちの重要な洞察は、合成画像のみに訓練されたモデルでは、実際のデータと合成データを組み合わせれば、より堅牢で適応可能な表現が得られるということです。
- 参考スコア(独自算出の注目度): 0.5249805590164901
- License:
- Abstract: This paper introduces MixDiff, a new self-supervised learning (SSL) pre-training framework that combines real and synthetic images. Unlike traditional SSL methods that predominantly use real images, MixDiff uses a variant of Stable Diffusion to replace an augmented instance of a real image, facilitating the learning of cross real-synthetic image representations. Our key insight is that while models trained solely on synthetic images underperform, combining real and synthetic data leads to more robust and adaptable representations. Experiments show MixDiff enhances SimCLR, BarlowTwins, and DINO across various robustness datasets and domain transfer tasks, boosting SimCLR's ImageNet-1K accuracy by 4.56%. Our framework also demonstrates comparable performance without needing any augmentations, a surprising finding in SSL where augmentations are typically crucial.
- Abstract(参考訳): 本稿では,実画像と合成画像を組み合わせた自己教師付き学習(SSL)事前学習フレームワークであるMixDiffを紹介する。
実際のイメージを主に使用する従来のSSLメソッドとは異なり、MixDiffは、実際のイメージの強化インスタンスを置き換えるために、Stable Diffusionの亜種を使用している。
私たちの重要な洞察は、合成画像のみに訓練されたモデルでは、実際のデータと合成データを組み合わせれば、より堅牢で適応可能な表現が得られるということです。
実験では、SimCLR、BarlowTwins、DINOがさまざまな堅牢性データセットとドメイン転送タスクにわたって拡張され、SimCLRのImageNet-1K精度が4.56%向上した。
当社のフレームワークは,拡張を必要とせずに,同等のパフォーマンスを実証しています。
関連論文リスト
- Gen-SIS: Generative Self-augmentation Improves Self-supervised Learning [52.170253590364545]
Gen-SISは、ラベルのない画像データにのみ訓練された拡散ベースの拡張技術である。
これらの自己増強、すなわちバニラSSLエンコーダの埋め込みに基づく生成増強は、より強力なSSLエンコーダのトレーニングを促進することを示す。
論文 参考訳(メタデータ) (2024-12-02T16:20:59Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Can Generative Models Improve Self-Supervised Representation Learning? [0.7999703756441756]
生成モデルを利用して意味論的に一貫した画像拡張を生成することにより、自己教師付き学習(SSL)パラダイムを充実させるフレームワークを提案する。
その結果,下流タスクにおいて,学習した視覚表現の精度を最大10%向上させることができた。
論文 参考訳(メタデータ) (2024-03-09T17:17:07Z) - Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with Synthetic Images [35.195284384050325]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - Deep Image Harmonization with Learnable Augmentation [17.690945824240348]
小型データセットの照明多様性を向上し、調和性能を向上させるため、学習可能な拡張法を提案する。
SycoNetは、フォアグラウンドマスクとランダムベクトルで実画像を取り込んで、適切な色変換を学習し、この実画像のフォアグラウンドに適用して合成合成合成画像を生成する。
論文 参考訳(メタデータ) (2023-08-01T08:40:23Z) - Inter-Instance Similarity Modeling for Contrastive Learning [22.56316444504397]
視覚変換器(ViT)におけるコントラスト学習のための新しい画像混合手法であるPatchMixを提案する。
既存のサンプルミキシング手法と比較して、我々のPatchMixは2つ以上の画像を柔軟に効率的に混ぜることができる。
提案手法は,ImageNet-1KとCIFARの両方のデータセットにおいて,従来の最先端技術よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-06-21T13:03:47Z) - StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual
Representation Learners [58.941838860425754]
合成画像の自己教師的手法を訓練することで、実際の画像と一致したり、打ち負かしたりすることができることを示す。
本研究では,StableRepと呼ばれるマルチ陽性のコントラスト学習手法を開発した。
合成画像だけで、StableRepで学んだ表現は、SimCLRとCLIPで学んだ表現のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2023-06-01T17:59:51Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。