論文の概要: Survey on Self-supervised Representation Learning Using Image
Transformations
- arxiv url: http://arxiv.org/abs/2202.08514v1
- Date: Thu, 17 Feb 2022 08:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 23:00:48.364401
- Title: Survey on Self-supervised Representation Learning Using Image
Transformations
- Title(参考訳): 画像変換を用いた自己教師型表現学習に関する調査
- Authors: Muhammad Ali, Sayed Hashim
- Abstract要約: 自己教師あり学習(英: self-supervised learning, SSL)は、教師なし表現学習において用いられる技法である。
幾何変換はSSLの強力な監視信号であることが示されている。
予測および自動エンコード変換に基づく画像変換を含む画像変換を用いた6つの代表モデルをショートリスト化する。
分析の結果,AETv2はほとんどの環境で最高の性能を示した。
- 参考スコア(独自算出の注目度): 0.8098097078441623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks need huge amount of training data, while in real world
there is a scarcity of data available for training purposes. To resolve these
issues, self-supervised learning (SSL) methods are used. SSL using geometric
transformations (GT) is a simple yet powerful technique used in unsupervised
representation learning. Although multiple survey papers have reviewed SSL
techniques, there is none that only focuses on those that use geometric
transformations. Furthermore, such methods have not been covered in depth in
papers where they are reviewed. Our motivation to present this work is that
geometric transformations have shown to be powerful supervisory signals in
unsupervised representation learning. Moreover, many such works have found
tremendous success, but have not gained much attention. We present a concise
survey of SSL approaches that use geometric transformations. We shortlist six
representative models that use image transformations including those based on
predicting and autoencoding transformations. We review their architecture as
well as learning methodologies. We also compare the performance of these models
in the object recognition task on CIFAR-10 and ImageNet datasets. Our analysis
indicates the AETv2 performs the best in most settings. Rotation with feature
decoupling also performed well in some settings. We then derive insights from
the observed results. Finally, we conclude with a summary of the results and
insights as well as highlighting open problems to be addressed and indicating
various future directions.
- Abstract(参考訳): 深層ニューラルネットワークは大量のトレーニングデータを必要とするが、現実世界ではトレーニング目的のデータが少ない。
これらの問題を解決するために、自己教師付き学習法(SSL)が用いられる。
ssl using geometric transformations (gt) は教師なし表現学習で使われる単純かつ強力な技術である。
複数の調査論文がssl技術をレビューしているが、幾何学的変換を使うものだけに焦点を当てたものはない。
さらに、これらの手法は、レビューされた論文では詳しくは触れられていない。
この研究を提示する動機は、幾何学的変換が教師なし表現学習において強力な監督信号であることが示されていることです。
また、多くの作品が大成功を収めたが、あまり注目されなかった。
幾何変換を用いたSSLアプローチの簡潔な調査を行う。
我々は、予測と自動エンコード変換に基づく画像変換を含む6つの代表的なモデルを要約する。
私たちは、彼らのアーキテクチャと学習方法論をレビューします。
また、cifar-10およびimagenetデータセットのオブジェクト認識タスクにおけるこれらのモデルの性能を比較する。
分析の結果,AETv2はほとんどの環境で最高の性能を示した。
機能分離によるローテーションも、いくつかの設定でうまく機能した。
そして、観察結果から洞察を得る。
最後に、結果と洞察の要約とともに、対処すべきオープンな問題を強調し、様々な今後の方向性を示す。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Substance or Style: What Does Your Image Embedding Know? [55.676463077772866]
画像基盤モデルは、主にセマンティックコンテンツとして評価されている。
画像のスタイル,品質,自然および人工的な変換など,多数の軸に沿った埋め込みの視覚的内容を測定する。
画像テキストモデル (CLIP と ALIGN) はマスキングベースモデル (CAN と MAE) よりもスタイル転送の新しい例を認識するのが得意である。
論文 参考訳(メタデータ) (2023-07-10T22:40:10Z) - Prediction of Geometric Transformation on Cardiac MRI via Convolutional
Neural Network [13.01021780124613]
画像に適用される幾何学的変換を認識するために,ConvNetsを訓練して医用画像の特徴を学習することを提案する。
幾何学的変換を容易に予測できる簡単な自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2022-11-12T11:29:14Z) - TransformNet: Self-supervised representation learning through predicting
geometric transformations [0.8098097078441623]
入力データに適用された幾何変換の認識のための教師なし意味特徴学習手法について述べる。
我々のアプローチの基本概念は、画像中の物体を知らない人が、それらに適用された幾何学的変換を定量的に予測できないことである。
論文 参考訳(メタデータ) (2022-02-08T22:41:01Z) - High Fidelity Visualization of What Your Self-Supervised Representation
Knows About [22.982471878833362]
本研究では,条件拡散に基づく生成モデル(RCDM)を用いて,自己教師付きモデルを用いて学習した表現を可視化する。
このモデルの生成品質は、条件付けとして使われる表現に忠実でありながら、最先端の生成モデルとどのように同等かを示す。
論文 参考訳(メタデータ) (2021-12-16T19:23:33Z) - Jointly Learnable Data Augmentations for Self-Supervised GNNs [0.311537581064266]
本稿では,グラフ表現学習のための自己教師型学習手法であるGraphSurgeonを提案する。
学習可能なデータ拡張の柔軟性を活用し、埋め込み空間で強化する新しい戦略を導入する。
その結果,GraphSurgeonは6つのSOTA半教師付きベースラインに匹敵し,ノード分類タスクにおける5つのSOTA自己教師付きベースラインに匹敵することがわかった。
論文 参考訳(メタデータ) (2021-08-23T21:33:12Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。