論文の概要: MixDiff: Mixing Natural and Synthetic Images for Robust Self-Supervised Representations
- arxiv url: http://arxiv.org/abs/2406.12368v2
- Date: Thu, 05 Dec 2024 04:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:37:22.366486
- Title: MixDiff: Mixing Natural and Synthetic Images for Robust Self-Supervised Representations
- Title(参考訳): MixDiff:ロバストな自己監督表現のための自然画像と合成画像の混合
- Authors: Reza Akbarian Bafghi, Nidhin Harilal, Claire Monteleoni, Maziar Raissi,
- Abstract要約: MixDiffは、実画像と合成画像を組み合わせた、新たな自己教師型学習(SSL)事前トレーニングフレームワークである。
私たちの重要な洞察は、合成画像のみに訓練されたモデルでは、実際のデータと合成データを組み合わせれば、より堅牢で適応可能な表現が得られるということです。
- 参考スコア(独自算出の注目度): 0.5249805590164901
- License:
- Abstract: This paper introduces MixDiff, a new self-supervised learning (SSL) pre-training framework that combines real and synthetic images. Unlike traditional SSL methods that predominantly use real images, MixDiff uses a variant of Stable Diffusion to replace an augmented instance of a real image, facilitating the learning of cross real-synthetic image representations. Our key insight is that while models trained solely on synthetic images underperform, combining real and synthetic data leads to more robust and adaptable representations. Experiments show MixDiff enhances SimCLR, BarlowTwins, and DINO across various robustness datasets and domain transfer tasks, boosting SimCLR's ImageNet-1K accuracy by 4.56%. Our framework also demonstrates comparable performance without needing any augmentations, a surprising finding in SSL where augmentations are typically crucial.
- Abstract(参考訳): 本稿では,実画像と合成画像を組み合わせた自己教師付き学習(SSL)事前学習フレームワークであるMixDiffを紹介する。
実際のイメージを主に使用する従来のSSLメソッドとは異なり、MixDiffは、実際のイメージの強化インスタンスを置き換えるために、Stable Diffusionの亜種を使用している。
私たちの重要な洞察は、合成画像のみに訓練されたモデルでは、実際のデータと合成データを組み合わせれば、より堅牢で適応可能な表現が得られるということです。
実験では、SimCLR、BarlowTwins、DINOがさまざまな堅牢性データセットとドメイン転送タスクにわたって拡張され、SimCLRのImageNet-1K精度が4.56%向上した。
当社のフレームワークは,拡張を必要とせずに,同等のパフォーマンスを実証しています。
関連論文リスト
- SSL: A Self-similarity Loss for Improving Generative Image Super-resolution [11.94842557256442]
生成逆数ネットワーク(GAN)と生成拡散モデル(DM)は、実世界の画像超解像(Real-ISR)で広く利用されている。
これらの生成モデルは、視覚的アーティファクトや偽画像構造を生成する傾向があり、不自然なリアルISRの結果をもたらす。
本稿では, 生成実ISRモデルの性能向上のために, 単純かつ効果的な自己相似性損失(SSL)を提案する。
論文 参考訳(メタデータ) (2024-08-11T07:46:06Z) - From Obstacle to Opportunity: Enhancing Semi-supervised Learning with Synthetic Data [24.06944957366102]
半教師付き学習(SSL)では、ラベルのないデータを使ってモデルの性能を向上させることができる。
本稿では,この問題を解決するために,Real and Synthetic hybrid SSL (RS-SSL) という新たなタスクを構築した。
我々は、現在のSSLメソッドが合成データを十分に活用することができず、時に負の影響を受けることを発見した。
合成画像による問題を分析することにより,RS-SSL問題に対処する新たなSSL手法 RSMatch を提案する。
論文 参考訳(メタデータ) (2024-05-27T08:24:42Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic Segmentation [16.863038973001483]
本研究は拡散合成セマンティックセマンティックセグメンテーショントレーニングの3つの手法を紹介する。
第一に、信頼性に配慮した堅牢なトレーニングは、もともと弱い教師付き学習で用いられ、合成マスクの品質が不十分なセグメンテーションに役立つ。
第2に、画像Net-1kクラスの画像にバックボーンだけでなく、全体セグメンテーションモデルの大規模事前トレーニングを行うことで、下流のセグメンテーションタスクにメリットがある。
第3に,テキストリソースの制限により,トレーニング画像のスケールアップと多様化を図るために,プロンプトテキストセットにプロンプト拡張,データ拡張を導入する。
論文 参考訳(メタデータ) (2023-09-04T05:34:19Z) - Deep Image Harmonization with Learnable Augmentation [17.690945824240348]
小型データセットの照明多様性を向上し、調和性能を向上させるため、学習可能な拡張法を提案する。
SycoNetは、フォアグラウンドマスクとランダムベクトルで実画像を取り込んで、適切な色変換を学習し、この実画像のフォアグラウンドに適用して合成合成合成画像を生成する。
論文 参考訳(メタデータ) (2023-08-01T08:40:23Z) - Inter-Instance Similarity Modeling for Contrastive Learning [22.56316444504397]
視覚変換器(ViT)におけるコントラスト学習のための新しい画像混合手法であるPatchMixを提案する。
既存のサンプルミキシング手法と比較して、我々のPatchMixは2つ以上の画像を柔軟に効率的に混ぜることができる。
提案手法は,ImageNet-1KとCIFARの両方のデータセットにおいて,従来の最先端技術よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-06-21T13:03:47Z) - StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual
Representation Learners [58.941838860425754]
合成画像の自己教師的手法を訓練することで、実際の画像と一致したり、打ち負かしたりすることができることを示す。
本研究では,StableRepと呼ばれるマルチ陽性のコントラスト学習手法を開発した。
合成画像だけで、StableRepで学んだ表現は、SimCLRとCLIPで学んだ表現のパフォーマンスを上回る。
論文 参考訳(メタデータ) (2023-06-01T17:59:51Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Wave-SAN: Wavelet based Style Augmentation Network for Cross-Domain
Few-Shot Learning [95.78635058475439]
クロスドメイン少ショット学習は、一般的な自然画像から新しいドメイン固有のターゲットカテゴリへ知識を伝達することを目的としている。
本稿では、ソースデータセットのスタイル分布を分散させることにより、CD-FSLの問題点を考察する。
我々のモデルを視覚的スタイルに堅牢にするために、低周波成分のスタイルを交換することで、ソースイメージを拡張します。
論文 参考訳(メタデータ) (2022-03-15T05:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。