論文の概要: Siamese Image Modeling for Self-Supervised Vision Representation
Learning
- arxiv url: http://arxiv.org/abs/2206.01204v1
- Date: Thu, 2 Jun 2022 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 14:32:02.762797
- Title: Siamese Image Modeling for Self-Supervised Vision Representation
Learning
- Title(参考訳): 自己監督型視覚表現学習のためのシームズ画像モデリング
- Authors: Chenxin Tao, Xizhou Zhu, Gao Huang, Yu Qiao, Xiaogang Wang, Jifeng Dai
- Abstract要約: 自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
- 参考スコア(独自算出の注目度): 73.78790119050056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) has delivered superior performance on a
variety of downstream vision tasks. Two main-stream SSL frameworks have been
proposed, i.e., Instance Discrimination (ID) and Masked Image Modeling (MIM).
ID pulls together the representations of different views from the same image,
while avoiding feature collapse. It does well on linear probing but is inferior
in detection performance. On the other hand, MIM reconstructs the original
content given a masked image. It excels at dense prediction but fails to
perform well on linear probing. Their distinctions are caused by neglecting the
representation requirements of either semantic alignment or spatial
sensitivity. Specifically, we observe that (1) semantic alignment demands
semantically similar views to be projected into nearby representation, which
can be achieved by contrasting different views with strong augmentations; (2)
spatial sensitivity requires to model the local structure within an image.
Predicting dense representations with masked image is therefore beneficial
because it models the conditional distribution of image content. Driven by
these analysis, we propose Siamese Image Modeling (SIM), which predicts the
dense representations of an augmented view, based on another masked view from
the same image but with different augmentations. Our method uses a Siamese
network with two branches. The online branch encodes the first view, and
predicts the second view's representation according to the relative positions
between these two views. The target branch produces the target by encoding the
second view. In this way, we are able to achieve comparable linear probing and
dense prediction performances with ID and MIM, respectively. We also
demonstrate that decent linear probing result can be obtained without a global
loss. Code shall be released.
- Abstract(参考訳): 自己教師付き学習(ssl)は、さまざまなダウンストリームビジョンタスクにおいて優れたパフォーマンスを提供します。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
IDは、機能崩壊を避けながら、同じイメージから異なるビューの表現をまとめます。
線形プローブではよく機能するが、検出性能は劣る。
一方、MIMは、マスク画像が与えられたオリジナルコンテンツを再構成する。
密度予測では優れるが、線形探索ではうまく機能しない。
それらの区別は、意味的アライメントまたは空間感度の表現要求を無視して生じる。
具体的には,(1)意味的アライメントにより,意味論的に類似した視点を近接表現に投影する必要があること,(2)空間的感度は画像内の局所構造をモデル化する必要があること,の2点を考察した。
そのため、画像内容の条件分布をモデル化するため、マスキング画像による密表現の予測が有用である。
これらの分析により,同画像からの別のマスキングビューに基づいて,拡張ビューの濃密な表現を予測できるシメス画像モデリング(SIM)を提案する。
本手法は2つの枝を持つシームズネットワークを用いる。
オンラインブランチは、第1のビューをエンコードし、これら2つのビュー間の相対的な位置に応じて第2のビューの表現を予測する。
ターゲットブランチは、第2のビューをエンコードしてターゲットを生成する。
このようにして,IDとMIMを用いて線形探索と密度予測をそれぞれ同等に行うことができる。
また, 線形探索結果が大域的損失を伴わずに得られることを示す。
コードは解放される。
関連論文リスト
- SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - Self-supervised Cross-view Representation Reconstruction for Change
Captioning [113.08380679787247]
変更キャプションは、類似したイメージのペアの違いを記述することを目的としている。
その主な課題は、視点変化によって引き起こされる擬似変化の下で、安定した差分表現を学習する方法である。
自己教師型クロスビュー表現再構成ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-28T09:28:50Z) - CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion [20.121597331207276]
Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
本稿では,多種多様な3次元視覚と下層の幾何学的下流課題によく伝達される表現を学習することを目的とする。
実験の結果,本研究のプリテキストタスクは,モノラルな3次元視覚の下流タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-19T16:50:36Z) - Dense Semantic Contrast for Self-Supervised Visual Representation
Learning [12.636783522731392]
意味圏決定境界を密度の高いレベルでモデル化するためのDense Semantic Contrast(DSC)を提案する。
本稿では,多粒度表現学習のためのクロスイメージ・セマンティック・コントラッシブ・ラーニング・フレームワークを提案する。
実験結果から,DSCモデルは下流の高密度予測タスクに転送する場合に,最先端の手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:04:05Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Unsupervised Learning of Dense Visual Representations [14.329781842154281]
本研究では,高密度表現の教師なし学習のためのビュー・アグノスティック・Dense Representation (VADeR)を提案する。
VADeRは、異なる視聴条件に対して局所的な特徴を一定に保ち続けるように強制することで、ピクセルワイズ表現を学習する。
提案手法は、複数の密集予測タスクにおいて、ImageNetの教師付き事前学習よりも優れる。
論文 参考訳(メタデータ) (2020-11-11T01:28:11Z) - Self-Supervised Ranking for Representation Learning [108.38993212650577]
本稿では、画像検索コンテキストにおけるランキング問題として定式化することで、自己教師型表現学習のための新しいフレームワークを提案する。
我々は、画像のランダムなビューが正に関連していると考えられるランク付けのための平均精度(AP)を最大化し、表現エンコーダを訓練する。
原則として、ランク付け基準を使用することで、対象中心のキュレートされたデータセットへの依存を排除します。
論文 参考訳(メタデータ) (2020-10-14T17:24:56Z) - Multi-Margin based Decorrelation Learning for Heterogeneous Face
Recognition [90.26023388850771]
本稿では,超球面空間におけるデコリレーション表現を抽出するディープニューラルネットワーク手法を提案する。
提案するフレームワークは,不均一表現ネットワークとデコリレーション表現学習の2つのコンポーネントに分けることができる。
2つの難解な異種顔データベースに対する実験結果から,本手法は検証タスクと認識タスクの両方において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-05-25T07:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。