論文の概要: Disentangling the Effects of Data Augmentation and Format Transform in
Self-Supervised Learning of Image Representations
- arxiv url: http://arxiv.org/abs/2312.02205v1
- Date: Sat, 2 Dec 2023 22:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 18:21:57.358791
- Title: Disentangling the Effects of Data Augmentation and Format Transform in
Self-Supervised Learning of Image Representations
- Title(参考訳): 画像表現の自己教師あり学習におけるデータ拡張と形式変換の効果の解消
- Authors: Neha Kalibhat, Warren Morningstar, Alex Bijamov, Luyang Liu, Karan
Singhal, Philip Mansfield
- Abstract要約: 本稿では,フォーマット変換と拡張が視覚SSLに与える影響について検討する。
画像拡張と組み合わせてSSLモデルのトレーニングを行うことで、ImageNet-1Kの下流分類精度を最大1.3%向上できることを示す。
- 参考スコア(独自算出の注目度): 6.246504932497345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Supervised Learning (SSL) enables training performant models using
limited labeled data. One of the pillars underlying vision SSL is the use of
data augmentations/perturbations of the input which do not significantly alter
its semantic content. For audio and other temporal signals, augmentations are
commonly used alongside format transforms such as Fourier transforms or wavelet
transforms. Unlike augmentations, format transforms do not change the
information contained in the data; rather, they express the same information in
different coordinates. In this paper, we study the effects of format transforms
and augmentations both separately and together on vision SSL. We define
augmentations in frequency space called Fourier Domain Augmentations (FDA) and
show that training SSL models on a combination of these and image augmentations
can improve the downstream classification accuracy by up to 1.3% on
ImageNet-1K. We also show improvements against SSL baselines in few-shot and
transfer learning setups using FDA. Surprisingly, we also observe that format
transforms can improve the quality of learned representations even without
augmentations; however, the combination of the two techniques yields better
quality.
- Abstract(参考訳): SSL(Self-Supervised Learning)は、ラベル付きデータによるパフォーマンスモデルのトレーニングを可能にする。
ビジョンSSLの根底にある柱の1つは、その意味的内容が著しく変化しない入力のデータ拡張/摂動の利用である。
音声やその他の時間信号に対して、拡張はフーリエ変換やウェーブレット変換などのフォーマット変換と共に一般的に用いられる。
拡張とは異なり、フォーマット変換はデータに含まれる情報を変更するのではなく、異なる座標で同じ情報を表現します。
本稿では,フォーマット変換と拡張が別々に,同時にvision sslに与える影響について検討する。
フーリエ領域拡張 (fda) と呼ばれる周波数空間における拡張を定義し、これらと画像拡張の組み合わせによるsslモデルのトレーニングにより、imagenet-1kの下流分類精度が最大1.3%向上することを示した。
また、FDAを用いた数ショットおよび転送学習のセットアップにおいて、SSLベースラインに対する改善を示す。
驚いたことに、形式変換は拡張なしでも学習表現の品質を向上させることができるが、この2つの技法の組み合わせはより良い品質をもたらす。
関連論文リスト
- Can Generative Models Improve Self-Supervised Representation Learning? [0.7999703756441756]
本稿では、生成モデルを利用して意味論的に一貫した画像拡張を生成することによって、自己指導型学習パラダイムを充実させる新しいフレームワークを提案する。
その結果,下流タスクにおいて,学習した視覚表現の精度を最大10%向上させることができた。
論文 参考訳(メタデータ) (2024-03-09T17:17:07Z) - SASSL: Enhancing Self-Supervised Learning via Neural Style Transfer [20.769072160203038]
SASSL: 自己監視学習のためのスタイル拡張は、ニューラルスタイル転送に基づく新しいデータ拡張技術である。
SASSLはイメージのセマンティック属性とスタイリスティック属性を分離し、コンテンツを保存しながらそのスタイルにのみ適用される。
SASSLは、イメージネット上のトップ1画像分類の精度を、確立された自己監督手法と比較して最大2ポイント向上する。
論文 参考訳(メタデータ) (2023-12-02T17:25:30Z) - Zero-Shot Learning by Harnessing Adversarial Samples [52.09717785644816]
本稿では,HAS(Harnessing Adversarial Samples)によるZSL(Zero-Shot Learning)アプローチを提案する。
HASは3つの重要な側面を考慮に入れた敵の訓練を通じてZSLを前進させる。
本稿では,ZSLと一般化ゼロショット学習(GZSL)の両シナリオにおいて,敵対的サンプルアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-01T06:19:13Z) - ESPT: A Self-Supervised Episodic Spatial Pretext Task for Improving
Few-Shot Learning [16.859375666701]
我々は,新しい自己教師型空間規範タスク(ESPT)により,数発の学習目標を増強することを提案する。
ESPTの目的は、原エピソードと変換されたエピソードの間の局所的な空間的関係の一貫性を最大化することである。
ESPT法は,3つのメインステイ・ベンチマーク・データセットを用いた数ショット画像分類のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-04-26T04:52:08Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Leveraging the Third Dimension in Contrastive Learning [88.17394309208925]
SSL(Self-Supervised Learning)メソッドは、ラベルのないデータでダウンストリームタスクに有用な堅牢な表現を学習する。
これらの拡張は、生物学的ビジョンが没入的な3次元、時間的に連続した環境で起こるという事実を無視している。
SSLフレームワークにディープシグナルを組み込むための2つの異なるアプローチについて検討する。
論文 参考訳(メタデータ) (2023-01-27T15:45:03Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - Wave-SAN: Wavelet based Style Augmentation Network for Cross-Domain
Few-Shot Learning [95.78635058475439]
クロスドメイン少ショット学習は、一般的な自然画像から新しいドメイン固有のターゲットカテゴリへ知識を伝達することを目的としている。
本稿では、ソースデータセットのスタイル分布を分散させることにより、CD-FSLの問題点を考察する。
我々のモデルを視覚的スタイルに堅牢にするために、低周波成分のスタイルを交換することで、ソースイメージを拡張します。
論文 参考訳(メタデータ) (2022-03-15T05:36:41Z) - Learning Representational Invariances for Data-Efficient Action
Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。
また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文 参考訳(メタデータ) (2021-03-30T17:59:49Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。