Fugu-MT 論文翻訳(概要): Can Generative Models Improve Self-Supervised Representation Learning?

論文の概要: Can Generative Models Improve Self-Supervised Representation Learning?

arxiv url: http://arxiv.org/abs/2403.05966v1
Date: Sat, 9 Mar 2024 17:17:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 11:30:43.784703
Title: Can Generative Models Improve Self-Supervised Representation Learning?
Title（参考訳）: 生成モデルは自己教師付き表現学習を改善するか?
Authors: Arash Afkanpour, Vahid Reza Khazaie, Sana Ayromlou, Fereshteh Forghani
Abstract要約: 自己教師付き学習(SSL)は、ラベルのないデータを活用して強力な視覚表現を学習する可能性を強調している。本稿では、生成モデルを利用して意味的に一貫性のある画像拡張を生成することによってSSLパラダイムを充実させる新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 0.8739101659113157
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancement in self-supervised learning (SSL) has highlighted its potential to leverage unlabeled data for learning powerful visual representations. However, existing SSL approaches, particularly those employing different views of the same image, often rely on a limited set of predefined data augmentations. This constrains the diversity and quality of transformations, which leads to sub-optimal representations. In this paper, we introduce a novel framework that enriches the SSL paradigm by utilizing generative models to produce semantically consistent image augmentations. By directly conditioning generative models on a source image representation, our method enables the generation of diverse augmentations while maintaining the semantics of the source image, thus offering a richer set of data for self-supervised learning. Our experimental results demonstrate that our framework significantly enhances the quality of learned visual representations. This research demonstrates that incorporating generative models into the SSL workflow opens new avenues for exploring the potential of unlabeled visual data. This development paves the way for more robust and versatile representation learning techniques.
Abstract（参考訳）: 自己教師付き学習(SSL)の急速な進歩は、ラベルのないデータを活用して強力な視覚表現を学習する可能性を強調している。しかし、既存のSSLアプローチ、特に同じイメージの異なるビューを使用するものは、しばしば、事前定義されたデータ拡張の限られたセットに依存する。これは変換の多様性と品質を制約し、それが準最適表現につながる。本稿では、生成モデルを利用して意味論的に一貫した画像拡張を生成することによってSSLパラダイムを充実させる新しいフレームワークを提案する。ソース画像表現に生成モデルを直接条件付けすることにより、ソース画像のセマンティクスを維持しながら多様な拡張生成を生成できるため、自己教師付き学習のためのよりリッチなデータセットを提供する。実験の結果,本フレームワークは学習した視覚表現の質を著しく向上させることがわかった。この研究は、生成モデルをSSLワークフローに組み込むことで、未ラベルの視覚データの可能性を探究するための新たな道を開くことを実証している。この開発は、より堅牢で汎用的な表現学習技術の道を開く。

関連論文リスト

Direct Ascent Synthesis: Revealing Hidden Generative Capabilities in Discriminative Models [6.501811946908292]
判別モデルは本質的に強力な生成能力を含むことを示す。我々の手法であるDirect Ascent Synthesisは、これらの潜伏能力を明らかにする。 DASは複数の空間スケールで最適化を分解することで高品質な画像合成を実現する。
論文参考訳（メタデータ） (2025-02-11T18:27:27Z)
Gen-SIS: Generative Self-augmentation Improves Self-supervised Learning [52.170253590364545]
Gen-SISは、ラベルのない画像データにのみ訓練された拡散ベースの拡張技術である。これらの自己増強、すなわちバニラSSLエンコーダの埋め込みに基づく生成増強は、より強力なSSLエンコーダのトレーニングを促進することを示す。
論文参考訳（メタデータ） (2024-12-02T16:20:59Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文参考訳（メタデータ） (2023-12-12T14:45:45Z)
Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文参考訳（メタデータ） (2023-12-04T18:35:27Z)
CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文参考訳（メタデータ） (2023-11-28T03:00:59Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文参考訳（メタデータ） (2023-02-07T20:42:28Z)
Style-Hallucinated Dual Consistency Learning: A Unified Framework for Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文参考訳（メタデータ） (2022-12-18T11:42:51Z)
Virtual embeddings and self-consistency for self-supervised learning [43.086696088061416]
TriMixは、線形データを通じて仮想埋め込みを生成する自己教師型学習の新しい概念である。我々は,TriMixを2.71%,0.41%改善した8つのベンチマークデータセットで検証した。
論文参考訳（メタデータ） (2022-06-13T10:20:28Z)
High Fidelity Visualization of What Your Self-Supervised Representation Knows About [22.982471878833362]
本研究では,条件拡散に基づく生成モデル(RCDM)を用いて,自己教師付きモデルを用いて学習した表現を可視化する。このモデルの生成品質は、条件付けとして使われる表現に忠実でありながら、最先端の生成モデルとどのように同等かを示す。
論文参考訳（メタデータ） (2021-12-16T19:23:33Z)
High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文参考訳（メタデータ） (2020-01-13T14:39:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。