論文の概要: TransformNet: Self-supervised representation learning through predicting
geometric transformations
- arxiv url: http://arxiv.org/abs/2202.04181v1
- Date: Tue, 8 Feb 2022 22:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 03:45:36.870340
- Title: TransformNet: Self-supervised representation learning through predicting
geometric transformations
- Title(参考訳): TransformNet:幾何学変換予測による自己教師付き表現学習
- Authors: Sayed Hashim, Muhammad Ali
- Abstract要約: 入力データに適用された幾何変換の認識のための教師なし意味特徴学習手法について述べる。
我々のアプローチの基本概念は、画像中の物体を知らない人が、それらに適用された幾何学的変換を定量的に予測できないことである。
- 参考スコア(独自算出の注目度): 0.8098097078441623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks need a big amount of training data, while in the real
world there is a scarcity of data available for training purposes. To resolve
this issue unsupervised methods are used for training with limited data. In
this report, we describe the unsupervised semantic feature learning approach
for recognition of the geometric transformation applied to the input data. The
basic concept of our approach is that if someone is unaware of the objects in
the images, he/she would not be able to quantitatively predict the geometric
transformation that was applied to them. This self supervised scheme is based
on pretext task and the downstream task. The pretext classification task to
quantify the geometric transformations should force the CNN to learn high-level
salient features of objects useful for image classification. In our baseline
model, we define image rotations by multiples of 90 degrees. The CNN trained on
this pretext task will be used for the classification of images in the CIFAR-10
dataset as a downstream task. we run the baseline method using various models,
including ResNet, DenseNet, VGG-16, and NIN with a varied number of rotations
in feature extracting and fine-tuning settings. In extension of this baseline
model we experiment with transformations other than rotation in pretext task.
We compare performance of selected models in various settings with different
transformations applied to images,various data augmentation techniques as well
as using different optimizers. This series of different type of experiments
will help us demonstrate the recognition accuracy of our self-supervised model
when applied to a downstream task of classification.
- Abstract(参考訳): 深層ニューラルネットワークは大量のトレーニングデータを必要とするが、現実世界ではトレーニング目的で利用可能なデータが少ない。
この問題を解決するために、教師なしのメソッドは限られたデータでトレーニングに使用される。
本稿では,入力データに適用された幾何変換の認識のための教師なし意味特徴学習手法について述べる。
我々のアプローチの基本概念は、画像中の物体を知らない人が、それらに適用された幾何学的変換を定量的に予測できないことである。
この自己教師付きスキームは、プリテキストタスクとダウンストリームタスクに基づいている。
幾何変換を定量化するプリテキスト分類タスクは、cnnに画像分類に有用なオブジェクトの高レベルなサルエント特徴を学ぶよう強制する。
ベースラインモデルでは、画像回転を90度の倍数で定義する。
このプリテキストタスクでトレーニングされたcnnは、ダウンストリームタスクとしてcifar-10データセット内のイメージの分類に使用される。
我々は,ResNet,DenseNet,VGG-16,NINなどさまざまなモデルを用いて,特徴抽出と微調整設定で様々な回転数でベースラインメソッドを実行する。
このベースラインモデルを拡張して、プリテキストタスクにおける回転以外の変換を実験する。
選択したモデルの性能を、画像に異なる変換を適用し、様々なデータ拡張技術と異なるオプティマイザを用いて比較する。
この一連の異なる実験は,分類の下流課題に適用した場合の自己教師付きモデルの認識精度を実証する上で有用である。
関連論文リスト
- Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - Revisiting Data Augmentation for Rotational Invariance in Convolutional
Neural Networks [0.29127054707887967]
画像分類のためのCNNにおける回転不変性について検討する。
実験により、データ拡張だけで訓練されたネットワークは、通常の非回転の場合と同様に、回転した画像の分類がほぼ可能であることが示された。
論文 参考訳(メタデータ) (2023-10-12T15:53:24Z) - Mixture of Self-Supervised Learning [2.191505742658975]
自己教師型学習は、特定のタスクに適用される前にモデル上でトレーニングされるプレテキストタスクを使用することで機能する。
従来の研究では、プリテキストタスクとして1つのタイプの変換しか使用されていなかった。
これにより、複数のプリテキストタスクが使用されているかどうか、すべてのプリテキストタスクを組み合わせるためにゲーティングネットワークを使用するかどうか、という疑問が持ち上がる。
論文 参考訳(メタデータ) (2023-07-27T14:38:32Z) - Substance or Style: What Does Your Image Embedding Know? [55.676463077772866]
画像基盤モデルは、主にセマンティックコンテンツとして評価されている。
画像のスタイル,品質,自然および人工的な変換など,多数の軸に沿った埋め込みの視覚的内容を測定する。
画像テキストモデル (CLIP と ALIGN) はマスキングベースモデル (CAN と MAE) よりもスタイル転送の新しい例を認識するのが得意である。
論文 参考訳(メタデータ) (2023-07-10T22:40:10Z) - Prediction of Geometric Transformation on Cardiac MRI via Convolutional
Neural Network [13.01021780124613]
画像に適用される幾何学的変換を認識するために,ConvNetsを訓練して医用画像の特徴を学習することを提案する。
幾何学的変換を容易に予測できる簡単な自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2022-11-12T11:29:14Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Survey on Self-supervised Representation Learning Using Image
Transformations [0.8098097078441623]
自己教師あり学習(英: self-supervised learning, SSL)は、教師なし表現学習において用いられる技法である。
幾何変換はSSLの強力な監視信号であることが示されている。
予測および自動エンコード変換に基づく画像変換を含む画像変換を用いた6つの代表モデルをショートリスト化する。
分析の結果,AETv2はほとんどの環境で最高の性能を示した。
論文 参考訳(メタデータ) (2022-02-17T08:37:50Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Radon cumulative distribution transform subspace modeling for image
classification [18.709734704950804]
画像変形モデルの幅広いクラスに適用可能な新しい教師付き画像分類法を提案する。
この方法は、画像データに先述のRandon Cumulative Distribution Transform(R-CDT)を用いる。
テスト精度の向上に加えて,計算効率の向上も示す。
論文 参考訳(メタデータ) (2020-04-07T19:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。