論文の概要: Learning Where to Learn in Cross-View Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2203.14898v1
- Date: Mon, 28 Mar 2022 17:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 14:06:56.229656
- Title: Learning Where to Learn in Cross-View Self-Supervised Learning
- Title(参考訳): クロスビュー自己教師付き学習における学習場所の学習
- Authors: Lang Huang, Shan You, Mingkai Zheng, Fei Wang, Chen Qian and Toshihiko
Yamasaki
- Abstract要約: 自己教師付き学習(SSL)は大きな進歩を遂げ、教師付き学習との大きなギャップを狭めた。
現在の方法では、埋め込みにピクセルの統一的なアグリゲーションを採用する。
本稿では,特徴の空間情報を適応的に集約する学習方法であるLearning Where to Learn(LEWEL)を提案する。
- 参考スコア(独自算出の注目度): 54.14989750044489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has made enormous progress and largely
narrowed the gap with the supervised ones, where the representation learning is
mainly guided by a projection into an embedding space. During the projection,
current methods simply adopt uniform aggregation of pixels for embedding;
however, this risks involving object-irrelevant nuisances and spatial
misalignment for different augmentations. In this paper, we present a new
approach, Learning Where to Learn (LEWEL), to adaptively aggregate spatial
information of features, so that the projected embeddings could be exactly
aligned and thus guide the feature learning better. Concretely, we reinterpret
the projection head in SSL as a per-pixel projection and predict a set of
spatial alignment maps from the original features by this weight-sharing
projection head. A spectrum of aligned embeddings is thus obtained by
aggregating the features with spatial weighting according to these alignment
maps. As a result of this adaptive alignment, we observe substantial
improvements on both image-level prediction and dense prediction at the same
time: LEWEL improves MoCov2 by 1.6%/1.3%/0.5%/0.4% points, improves BYOL by
1.3%/1.3%/0.7%/0.6% points, on ImageNet linear/semi-supervised classification,
Pascal VOC semantic segmentation, and object detection, respectively.
- Abstract(参考訳): 自己教師付き学習(SSL)は、大きく進歩し、主に表現学習が射影によって埋め込み空間へと導かれる教師付き学習との大きなギャップを狭めた。
投影中、現在の手法は単に埋め込みのためにピクセルの均一な集約を採用するが、このリスクは、異なる拡張に対するオブジェクト非関連ニュアンスと空間的不整合を含む。
本稿では,学習する場所(lewel)を学習し,特徴の空間情報を適応的に集約する新しい手法を提案する。
具体的には、SSLの投影ヘッドを画素ごとの投影として再解釈し、この重み付けプロジェクションヘッドによって元の特徴から空間アライメントマップの集合を予測する。
これにより、これらのアライメントマップに従って、特徴を空間重み付けで集約することにより、アライメント埋め込みのスペクトルを得る。
LEWELはMoCov2を1.6%/1.3%/0.5%/0.4%改善し、BYOLを1.3%/1.3%/0.7%/0.6%改善する。
関連論文リスト
- Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Attention-Guided Lidar Segmentation and Odometry Using Image-to-Point Cloud Saliency Transfer [6.058427379240697]
SalLiDARは3次元セマンティックセマンティックセマンティクスモデルであり、セマンティクス性能を向上させるために、サリエンシ情報を統合する。
SalLONetは、SalLiDARのセマンティックおよびサリエンシ予測を用いて、より優れたオドメトリー推定を実現する、自己監督型サリエンシ誘導型LiDARオドメトリーネットワークである。
論文 参考訳(メタデータ) (2023-08-28T06:22:10Z) - Understanding Contrastive Learning Through the Lens of Margins [9.443122526245562]
自己教師型学習(SSL)は、現実世界のタスクにおける機械学習の利用を拡大する鍵を握る。
比較学習がより深いレベルでどのように機能するかを理解するために、マージンをステップストーンとして使用しています。
論文 参考訳(メタデータ) (2023-06-20T13:28:27Z) - Spatiotemporal Self-supervised Learning for Point Clouds in the Wild [65.56679416475943]
空間領域と時間領域の両方で正のペアを利用するSSL戦略を導入する。
2つの大規模LiDARデータセット上で,自己教師型トレーニングによって実施した広範囲な実験を通じて,このアプローチのメリットを実証する。
論文 参考訳(メタデータ) (2023-03-28T18:06:22Z) - Understanding and Improving the Role of Projection Head in
Self-Supervised Learning [77.59320917894043]
自己教師付き学習(SSL)は、人間のラベル付きデータアノテーションにアクセスせずに有用な特徴表現を作成することを目的としている。
現在の対照的な学習アプローチは、InfoNCEの目的を最適化するために、あるバックボーンネットワークの端にパラメータ化されたプロジェクションヘッドを付加する。
学習可能なプロジェクションヘッドが、トレーニング後にそれを破棄する場合、なぜ必要となるのか?
論文 参考訳(メタデータ) (2022-12-22T05:42:54Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。