論文の概要: Self-Supervised Learning based on Heat Equation
- arxiv url: http://arxiv.org/abs/2211.13228v1
- Date: Wed, 23 Nov 2022 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 14:30:48.684814
- Title: Self-Supervised Learning based on Heat Equation
- Title(参考訳): 熱方程式に基づく自己教師付き学習
- Authors: Yinpeng Chen and Xiyang Dai and Dongdong Chen and Mengchen Liu and Lu
Yuan and Zicheng Liu and Youzuo Lin
- Abstract要約: 本稿では,熱方程式を高次元特徴空間に拡張した自己教師型学習の新たな視点を提案する。
我々は x と y の軸を 2 つの一階線型微分方程式として分割することで単純化する。
これにより、QB-Heatと呼ばれる非常に単純なマスク付き画像モデリング(MIM)手法が導入された。
- 参考スコア(独自算出の注目度): 75.61974935666446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new perspective of self-supervised learning based on
extending heat equation into high dimensional feature space. In particular, we
remove time dependence by steady-state condition, and extend the remaining 2D
Laplacian from x--y isotropic to linear correlated. Furthermore, we simplify it
by splitting x and y axes as two first-order linear differential equations.
Such simplification explicitly models the spatial invariance along horizontal
and vertical directions separately, supporting prediction across image blocks.
This introduces a very simple masked image modeling (MIM) method, named
QB-Heat.
QB-Heat leaves a single block with size of quarter image unmasked and
extrapolates other three masked quarters linearly. It brings MIM to CNNs
without bells and whistles, and even works well for pre-training light-weight
networks that are suitable for both image classification and object detection
without fine-tuning. Compared with MoCo-v2 on pre-training a Mobile-Former with
5.8M parameters and 285M FLOPs, QB-Heat is on par in linear probing on
ImageNet, but clearly outperforms in non-linear probing that adds a transformer
block before linear classifier (65.6% vs. 52.9%). When transferring to object
detection with frozen backbone, QB-Heat outperforms MoCo-v2 and supervised
pre-training on ImageNet by 7.9 and 4.5 AP respectively.
This work provides an insightful hypothesis on the invariance within visual
representation over different shapes and textures: the linear relationship
between horizontal and vertical derivatives. The code will be publicly
released.
- Abstract(参考訳): 本稿では,熱方程式を高次元特徴空間に拡張した自己教師あり学習の新しい視点を提案する。
特に、定常状態による時間依存を除去し、残りの2次元ラプラシアンを x-y 等方性から線形相関に拡張する。
さらに、x と y を2つの一階線型微分方程式として分割することで単純化する。
このような単純化は、水平方向と垂直方向の空間不変性を個別にモデル化し、画像ブロック間の予測をサポートする。
これはQB-Heatと呼ばれる非常に単純なマスク付き画像モデリング(MIM)手法を導入する。
QB-Heatは4分の1の大きさの1ブロックを残し、他の3つのマスク付きクォーターを直線的に外挿する。
MIMはベルやホイッスルを使わずにCNNに導入され、微調整なしで画像分類と物体検出の両方に適した軽量ネットワークの事前トレーニングにも有効だ。
MoCo-v2の5.8Mパラメータと285M FLOPの事前トレーニングと比較すると、QB-HeatはImageNet上の線形プローブでは同等だが、線形分類器(65.6%対52.9%)の前にトランスフォーマーブロックを追加する非線形プローブでは明らかに優れる。
凍結したバックボーンで物体検出に移行すると、QB-HeatはMoCo-v2より優れ、ImageNetの事前トレーニングを7.9 APと4.5 APで監督する。
この研究は、異なる形状とテクスチャに対する視覚的表現の不変性に関する洞察に富んだ仮説を提供する:水平微分と垂直微分の間の線形関係。
コードは公開される予定だ。
関連論文リスト
- Image as First-Order Norm+Linear Autoregression: Unveiling Mathematical
Invariance [104.05734286732941]
FINOLAは、潜在空間内の各画像を1次自己回帰プロセスとして表現する。
FINOLAの256x256機能マップへの自動回帰機能を示す。
また、簡単なマスク付き予測手法を用いて、FINOLAを自己教師型学習に活用する。
論文 参考訳(メタデータ) (2023-05-25T17:59:50Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - Fire Together Wire Together: A Dynamic Pruning Approach with
Self-Supervised Mask Prediction [12.86325214182021]
動的モデルプルーニング(Dynamic Model pruning)は、デプロイ中の各入力サンプルに対する異なるサブネットワークの推測を可能にする、最近の方法である。
現在の動的手法は、間隔損失を誘導することによって正規化を通じて連続的なチャネルゲーティングを学ぶことに依存している。
我々は,CIFARおよびImageNet上で,VGG,ResNet,MobileNetなどのニューラルネットワークの実験を行った。
論文 参考訳(メタデータ) (2021-10-15T17:39:53Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z) - Barlow Twins: Self-Supervised Learning via Redundancy Reduction [31.077182488826963]
SSL(Self-supervised Learning)は、大規模なコンピュータビジョンベンチマークの監督メソッドによるギャップを急速に閉じています。
2つの同一ネットワークの出力間の相互相関行列を測定することにより,崩壊を自然に回避する目的関数を提案する。
これにより、歪んだサンプルの表現ベクトルは類似し、これらのベクトルの成分間の冗長性が最小化される。
論文 参考訳(メタデータ) (2021-03-04T18:55:09Z) - I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human
Pose and Mesh Estimation from a Single RGB Image [79.040930290399]
I2L-MeshNetを提案する。
提案したI2L-MeshNetは、パラメータを直接回帰するのではなく、各メッシュ座標の1Dヒートマップ上のリセル当たりの確率を予測する。
我々のリセルベースの1Dヒートマップは入力画像の空間的関係を保存し、予測の不確かさをモデル化する。
論文 参考訳(メタデータ) (2020-08-09T12:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。