論文の概要: Random Field Augmentations for Self-Supervised Representation Learning
- arxiv url: http://arxiv.org/abs/2311.03629v1
- Date: Tue, 7 Nov 2023 00:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:30:07.593629
- Title: Random Field Augmentations for Self-Supervised Representation Learning
- Title(参考訳): 自己教師付き表現学習のためのランダムフィールド強化
- Authors: Philip Andrew Mansfield, Arash Afkanpour, Warren Richard Morningstar,
Karan Singhal
- Abstract要約: 本稿では,ガウス確率場に基づく局所変換の新たなファミリーを提案し,自己教師付き表現学習のための画像拡張を生成する。
我々は、ImageNet下流分類のベースラインよりも1.7%のTop-1精度向上と、アウト・オブ・ディストリビューションiNaturalist下流分類の3.6%の改善を実現している。
弱い変換は表現を改善するが、強い変換は画像の構造を劣化させることができる。
- 参考スコア(独自算出の注目度): 4.3543354293465155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised representation learning is heavily dependent on data
augmentations to specify the invariances encoded in representations. Previous
work has shown that applying diverse data augmentations is crucial to
downstream performance, but augmentation techniques remain under-explored. In
this work, we propose a new family of local transformations based on Gaussian
random fields to generate image augmentations for self-supervised
representation learning. These transformations generalize the well-established
affine and color transformations (translation, rotation, color jitter, etc.)
and greatly increase the space of augmentations by allowing transformation
parameter values to vary from pixel to pixel. The parameters are treated as
continuous functions of spatial coordinates, and modeled as independent
Gaussian random fields. Empirical results show the effectiveness of the new
transformations for self-supervised representation learning. Specifically, we
achieve a 1.7% top-1 accuracy improvement over baseline on ImageNet downstream
classification, and a 3.6% improvement on out-of-distribution iNaturalist
downstream classification. However, due to the flexibility of the new
transformations, learned representations are sensitive to hyperparameters.
While mild transformations improve representations, we observe that strong
transformations can degrade the structure of an image, indicating that
balancing the diversity and strength of augmentations is important for
improving generalization of learned representations.
- Abstract(参考訳): 自己教師付き表現学習は、表現に符号化された不変性を特定するためにデータ拡張に大きく依存する。
これまでの研究は、下流のパフォーマンスには多様なデータ拡張を適用することが不可欠であることを示した。
本研究では,自己教師付き表現学習のための画像拡張を生成するために,ガウス確率場に基づく局所変換の新しいファミリーを提案する。
これらの変換は、確立されたアフィン変換と色変換(変換、回転、色ジッタなど)を一般化し、変換パラメータ値をピクセルからピクセルに変化させることで拡張の空間を大きく拡大する。
パラメータは空間座標の連続関数として扱われ、独立なガウス確率場としてモデル化される。
実験結果は,自己指導型表現学習における新しい変換の有効性を示す。
具体的には、ImageNet下流分類のベースラインよりも1.7%のTop-1精度向上と、配信外iNaturalist下流分類の3.6%の改善を実現している。
しかし、新しい変換の柔軟性のため、学習された表現はハイパーパラメータに敏感である。
穏やかな変換は表現を改善するが、強い変換は画像の構造を劣化させ、拡張の多様性と強さのバランスをとることが学習表現の一般化を改善する上で重要であることを示している。
関連論文リスト
- Steerable Equivariant Representation Learning [36.138305341173414]
本稿では,データ拡張に同値な表現を学習する手法を提案する。
この結果から, 伝達学習性能とロバスト性の向上が期待できる。
論文 参考訳(メタデータ) (2023-02-22T12:42:45Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Local Magnification for Data and Feature Augmentation [53.04028225837681]
LOMA(Local Magnification)と呼ばれる,実装が容易かつモデルフリーなデータ拡張手法を提案する。
LOMAは、画像の局所領域をランダムに拡大することにより、追加のトレーニングデータを生成する。
実験の結果,提案するLOMAと標準データ拡張を組み合わせることで,画像分類や物体検出の性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-11-15T02:51:59Z) - Masked Autoencoders are Robust Data Augmentors [90.34825840657774]
ディープニューラルネットワークの一般化には、画像拡張のような正規化技術が必要である。
本稿では,トレーニングプロセスの正規化に向けて,新たな拡張の視点を提案する。
このようなモデルに基づく非線形変換をデータ拡張として活用することで,高レベルの認識タスクを向上できることを示す。
論文 参考訳(メタデータ) (2022-06-10T02:41:48Z) - Data augmentation with mixtures of max-entropy transformations for
filling-level classification [88.14088768857242]
本稿では,コンテンツレベルの分類作業のための基本データ拡張スキームを用いて,テスト時間データにおける分散シフトの問題に対処する。
このような原理的な拡張スキームは,伝達学習を利用した現在のアプローチを置き換えたり,伝達学習と組み合わせて性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-08T11:41:38Z) - Robust Training Using Natural Transformation [19.455666609149567]
画像分類アルゴリズムのロバスト性を改善するための逆学習手法であるNaTraを提案する。
クラス識別とは無関係な入力画像の属性をターゲティングし、それらの属性を操作して実世界の自然変換を模倣します。
本手法の有効性を,よく訓練されたGANから導かれる非絡み合った潜在表現を用いて実証する。
論文 参考訳(メタデータ) (2021-05-10T01:56:03Z) - Invariant Deep Compressible Covariance Pooling for Aerial Scene
Categorization [80.55951673479237]
本研究では,空気シーン分類におけるニュアンス変動を解決するために,新しい不変な深部圧縮性共分散プール (IDCCP) を提案する。
本研究では,公開空間画像データセットに関する広範な実験を行い,最先端の手法と比較して,この手法の優位性を実証する。
論文 参考訳(メタデータ) (2020-11-11T11:13:07Z) - FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning [64.32306537419498]
本稿では,複雑な変換を多様に生成する特徴量に基づく改良・拡張手法を提案する。
これらの変換は、クラスタリングを通じて抽出したクラス内およびクラス間の両方の情報も利用します。
提案手法は,大規模データセットにスケールアップしながら,より小さなデータセットに対して,現在の最先端技術に匹敵するものであることを実証する。
論文 参考訳(メタデータ) (2020-07-16T17:55:31Z) - Group Equivariant Generative Adversarial Networks [7.734726150561089]
本研究では,グループ同変畳み込みネットワークを通じて,帰納的対称性をネットワークアーキテクチャに明示的に組み込む。
群変換はより表現力が高く、サンプルが少ないため、ジェネレータと判別器の間の勾配フィードバックが向上する。
論文 参考訳(メタデータ) (2020-05-04T17:38:49Z) - Probabilistic Spatial Transformer Networks [0.6999740786886537]
本稿では、決定論的ではなく、変換を推定する確率的拡張を提案する。
これら2つの特性が,分類性能,ロバスト性,モデル校正性の向上につながることを示す。
さらに、時系列データにおけるモデル性能を改善することにより、非視覚領域へのアプローチが一般化されることを実証する。
論文 参考訳(メタデータ) (2020-04-07T18:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。