Fugu-MT 論文翻訳(概要): Mixing Natural and Synthetic Images for Robust Self-Supervised Representations

論文の概要: Mixing Natural and Synthetic Images for Robust Self-Supervised Representations

arxiv url: http://arxiv.org/abs/2406.12368v1
Date: Tue, 18 Jun 2024 07:49:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 20:06:22.313789
Title: Mixing Natural and Synthetic Images for Robust Self-Supervised Representations
Title（参考訳）: ロバストな自己スーパービジョン表現のための自然画像と合成画像の混合
Authors: Reza Akbarian Bafghi, Nidhin Harilal, Claire Monteleoni, Maziar Raissi,
Abstract要約: 本稿では,実画像と合成画像を組み合わせた自己教師付き学習(SSL)事前学習フレームワークであるDiffMixを紹介する。実験によると、DiffMixはさまざまなデータセットやドメイン転送タスクに対してSSLメソッドSimCLR、BarlowTwins、DINOを強化する。
参考スコア（独自算出の注目度）: 0.5249805590164901
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper introduces DiffMix, a new self-supervised learning (SSL) pre-training framework that combines real and synthetic images. Unlike traditional SSL methods that predominantly use real images, DiffMix uses a variant of Stable Diffusion to replace an augmented instance of a real image, facilitating the learning of cross real-synthetic image representations. The key insight is that while SSL methods trained solely on synthetic images underperform compared to those trained on real images, a blended training approach using both real and synthetic images leads to more robust and adaptable representations. Experiments demonstrate that DiffMix enhances the SSL methods SimCLR, BarlowTwins, and DINO, across various robustness datasets and domain transfer tasks. DiffMix boosts SimCLR's accuracy on ImageNet-1K by 4.56\%. These results challenge the notion that high-quality real images are crucial for SSL pre-training by showing that lower quality synthetic images can also produce strong representations. DiffMix also reduces the need for image augmentations in SSL, offering new optimization strategies.
Abstract（参考訳）: 本稿では,実画像と合成画像を組み合わせた自己教師付き学習(SSL)事前学習フレームワークであるDiffMixを紹介する。 DiffMixは、実際のイメージを主に使用する従来のSSLメソッドとは異なり、実際のイメージの強化インスタンスを置き換えるために、スタブルディフュージョンの変種を使用して、クロスリアルな合成画像表現の学習を容易にする。重要な洞察は、SSLメソッドは、実際の画像で訓練されたものよりも、合成画像のみに訓練されるが、リアル画像と合成画像の両方を使用したブレンドトレーニングアプローチは、より堅牢で適応可能な表現をもたらすことである。実験によると、DiffMixはさまざまな堅牢性データセットやドメイン転送タスクに対してSSLメソッドSimCLR、BarlowTwins、DINOを強化する。 DiffMix は ImageNet-1K の SimCLR の精度を 4.56 %向上させる。これらの結果は、高品質な合成画像が強力な表現を生成できることを示すことによって、SSL事前トレーニングに高品質な実画像が不可欠であるという考えに挑戦する。 DiffMixはまた、SSLのイメージ拡張の必要性を減らし、新しい最適化戦略を提供する。

関連論文リスト

Gen-SIS: Generative Self-augmentation Improves Self-supervised Learning [52.170253590364545]
Gen-SISは、ラベルのない画像データにのみ訓練された拡散ベースの拡張技術である。これらの自己増強、すなわちバニラSSLエンコーダの埋め込みに基づく生成増強は、より強力なSSLエンコーダのトレーニングを促進することを示す。
論文参考訳（メタデータ） (2024-12-02T16:20:59Z)
SSL: A Self-similarity Loss for Improving Generative Image Super-resolution [11.94842557256442]
生成逆数ネットワーク(GAN)と生成拡散モデル(DM)は、実世界の画像超解像(Real-ISR)で広く利用されている。これらの生成モデルは、視覚的アーティファクトや偽画像構造を生成する傾向があり、不自然なリアルISRの結果をもたらす。本稿では, 生成実ISRモデルの性能向上のために, 単純かつ効果的な自己相似性損失(SSL)を提案する。
論文参考訳（メタデータ） (2024-08-11T07:46:06Z)
From Obstacle to Opportunity: Enhancing Semi-supervised Learning with Synthetic Data [24.06944957366102]
半教師付き学習(SSL)では、ラベルのないデータを使ってモデルの性能を向上させることができる。本稿では,この問題を解決するために,Real and Synthetic hybrid SSL (RS-SSL) という新たなタスクを構築した。我々は、現在のSSLメソッドが合成データを十分に活用することができず、時に負の影響を受けることを発見した。合成画像による問題を分析することにより,RS-SSL問題に対処する新たなSSL手法 RSMatch を提案する。
論文参考訳（メタデータ） (2024-05-27T08:24:42Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
Can Generative Models Improve Self-Supervised Representation Learning? [0.7999703756441756]
生成モデルを利用して意味論的に一貫した画像拡張を生成することにより、自己教師付き学習(SSL)パラダイムを充実させるフレームワークを提案する。その結果,下流タスクにおいて,学習した視覚表現の精度を最大10%向上させることができた。
論文参考訳（メタデータ） (2024-03-09T17:17:07Z)
Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文参考訳（メタデータ） (2023-12-12T14:45:45Z)
Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with Synthetic Images [35.195284384050325]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文参考訳（メタデータ） (2023-12-04T18:35:27Z)
Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic Segmentation [16.863038973001483]
本研究は拡散合成セマンティックセマンティックセグメンテーショントレーニングの3つの手法を紹介する。第一に、信頼性に配慮した堅牢なトレーニングは、もともと弱い教師付き学習で用いられ、合成マスクの品質が不十分なセグメンテーションに役立つ。第2に、画像Net-1kクラスの画像にバックボーンだけでなく、全体セグメンテーションモデルの大規模事前トレーニングを行うことで、下流のセグメンテーションタスクにメリットがある。第3に,テキストリソースの制限により,トレーニング画像のスケールアップと多様化を図るために,プロンプトテキストセットにプロンプト拡張,データ拡張を導入する。
論文参考訳（メタデータ） (2023-09-04T05:34:19Z)
Deep Image Harmonization with Learnable Augmentation [17.690945824240348]
小型データセットの照明多様性を向上し、調和性能を向上させるため、学習可能な拡張法を提案する。 SycoNetは、フォアグラウンドマスクとランダムベクトルで実画像を取り込んで、適切な色変換を学習し、この実画像のフォアグラウンドに適用して合成合成合成画像を生成する。
論文参考訳（メタデータ） (2023-08-01T08:40:23Z)
Inter-Instance Similarity Modeling for Contrastive Learning [22.56316444504397]
視覚変換器(ViT)におけるコントラスト学習のための新しい画像混合手法であるPatchMixを提案する。既存のサンプルミキシング手法と比較して、我々のPatchMixは2つ以上の画像を柔軟に効率的に混ぜることができる。提案手法は,ImageNet-1KとCIFARの両方のデータセットにおいて,従来の最先端技術よりも大幅に優れていた。
論文参考訳（メタデータ） (2023-06-21T13:03:47Z)
StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners [58.941838860425754]
合成画像の自己教師的手法を訓練することで、実際の画像と一致したり、打ち負かしたりすることができることを示す。本研究では,StableRepと呼ばれるマルチ陽性のコントラスト学習手法を開発した。合成画像だけで、StableRepで学んだ表現は、SimCLRとCLIPで学んだ表現のパフォーマンスを上回る。
論文参考訳（メタデータ） (2023-06-01T17:59:51Z)
Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文参考訳（メタデータ） (2023-04-02T10:25:09Z)
DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文参考訳（メタデータ） (2022-06-01T10:39:12Z)
Wave-SAN: Wavelet based Style Augmentation Network for Cross-Domain Few-Shot Learning [95.78635058475439]
クロスドメイン少ショット学習は、一般的な自然画像から新しいドメイン固有のターゲットカテゴリへ知識を伝達することを目的としている。本稿では、ソースデータセットのスタイル分布を分散させることにより、CD-FSLの問題点を考察する。我々のモデルを視覚的スタイルに堅牢にするために、低周波成分のスタイルを交換することで、ソースイメージを拡張します。
論文参考訳（メタデータ） (2022-03-15T05:36:41Z)
Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。本稿では,自然言語処理タスクにmixupを適用する方法について検討する。我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文参考訳（メタデータ） (2020-10-05T23:37:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。