論文の概要: Mugs: A Multi-Granular Self-Supervised Learning Framework
- arxiv url: http://arxiv.org/abs/2203.14415v1
- Date: Sun, 27 Mar 2022 23:42:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 13:07:23.093937
- Title: Mugs: A Multi-Granular Self-Supervised Learning Framework
- Title(参考訳): Mugs: マルチグラニュラーな自己監視型学習フレームワーク
- Authors: Pan Zhou and Yichen Zhou and Chenyang Si and Weihao Yu and Teck Khim
Ng and Shuicheng Yan
- Abstract要約: マルチグラニュラー視覚特徴を明瞭に学習するための効果的なMUlti-Granular Self-supervised Learning (Mugs) フレームワークを提案する。
1)インスタンス識別監督(IDS)、2)新しいローカルグループ識別監督(LGDS)、3)グループ識別監督(GDS)である。
- 参考スコア(独自算出の注目度): 114.34858365121725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In self-supervised learning, multi-granular features are heavily desired
though rarely investigated, as different downstream tasks (e.g., general and
fine-grained classification) often require different or multi-granular
features, e.g.~fine- or coarse-grained one or their mixture. In this work, for
the first time, we propose an effective MUlti-Granular Self-supervised learning
(Mugs) framework to explicitly learn multi-granular visual features. Mugs has
three complementary granular supervisions: 1) an instance discrimination
supervision (IDS), 2) a novel local-group discrimination supervision (LGDS),
and 3) a group discrimination supervision (GDS). IDS distinguishes different
instances to learn instance-level fine-grained features. LGDS aggregates
features of an image and its neighbors into a local-group feature, and pulls
local-group features from different crops of the same image together and push
them away for others. It provides complementary instance supervision to IDS via
an extra alignment on local neighbors, and scatters different local-groups
separately to increase discriminability. Accordingly, it helps learn high-level
fine-grained features at a local-group level. Finally, to prevent similar
local-groups from being scattered randomly or far away, GDS brings similar
samples close and thus pulls similar local-groups together, capturing
coarse-grained features at a (semantic) group level. Consequently, Mugs can
capture three granular features that often enjoy higher generality on diverse
downstream tasks over single-granular features, e.g.~instance-level
fine-grained features in contrastive learning. By only pretraining on
ImageNet-1K, Mugs sets new SoTA linear probing accuracy 82.1$\%$ on ImageNet-1K
and improves previous SoTA by $1.1\%$. It also surpasses SoTAs on other tasks,
e.g. transfer learning, detection and segmentation.
- Abstract(参考訳): 自己教師付き学習では、異なる下流タスク(例えば、一般的な分類ときめ細かな分類)は、しばしば異なるまたは複数の粒度の特徴を必要とするため、多粒度の特徴が強く望まれるが、ほとんど調査されない。
本研究は,マルチグラニュラー視覚特徴を明示的に学習するための効果的なMUlti-Granular Self-supervised Learning (Mugs) フレームワークを初めて提案する。
mugsには3つの相補的な細かな監督がある。
1) インスタンス識別監督(IDS)
2)新しい局所集団差別監督(lgds)、及び
3)グループ差別監督(GDS)。
IDSはインスタンスレベルのきめ細かい機能を学ぶために異なるインスタンスを区別する。
LGDSは、画像とその隣人の機能をローカルグループ機能に集約し、同じ画像の異なる作物からローカルグループ機能を抽出し、それらを他のものにプッシュする。
IDSに補完的なインスタンス管理を提供するため、近隣住民に追加のアライメントを施し、差別性を高めるために異なるローカルグループを別々に散布する。
したがって、ローカルグループレベルで高レベルのきめ細かい機能を学ぶのに役立つ。
最後に、類似の局所群がランダムにあるいは遠くに散らばることを防ぐため、GDSは類似のサンプルを近くに持ち込み、類似の局所群をまとめ、(意味)群レベルで粗粒度の特徴を捉える。
結果として、Mugは、対照的な学習において、単一粒度よりも様々な下流タスクにおいて高い一般化を享受する3つの粒度の特徴を捉えることができる。
ImageNet-1Kでのみ事前トレーニングを行うことで、Mugsは新しいSoTA線形探索精度82.1$\%$をImageNet-1Kで設定し、以前のSoTAを1.1\%$で改善する。
また、転送学習、検出、セグメンテーションなど他のタスクではSoTAを超越している。
関連論文リスト
- GBE-MLZSL: A Group Bi-Enhancement Framework for Multi-Label Zero-Shot
Learning [24.075034737719776]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
本稿では、GBE-MLZSLと呼ばれるMLZSLのための新しい効果的なグループバイエンハンスメントフレームワークを提案し、それらの特性を十分に活用し、より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。
大規模なMLZSLベンチマークデータセットであるNAS-WIDEとOpen-Images-v4の実験では、提案したGBE-MLZSLが、最先端の手法よりも大きなマージンを持つことを示した。
論文 参考訳(メタデータ) (2023-09-02T12:07:21Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - A Task-aware Dual Similarity Network for Fine-grained Few-shot Learning [19.90385022248391]
TDSNet(Task-aware Dual similarity Network)は,グローバルな不変機能と識別的局所的詳細を探索する手法である。
TDSNetは、他の最先端アルゴリズムと比較することで、競争性能を達成する。
論文 参考訳(メタデータ) (2022-10-22T04:24:55Z) - Semantic-diversity transfer network for generalized zero-shot learning
via inner disagreement based OOD detector [26.89763840782029]
Zero-shot Learning (ZSL) は、見えないクラスからオブジェクトを認識することを目的としている。
既存の多くの作品における知識伝達は、1)広く使われている視覚的特徴がグローバルなものであるが、意味的属性と完全に一致していないという事実から、主に制限されている。
最初の2つの制約に対処するセマンティック・ダイバーシティ・トランスファー・ネットワーク(SetNet)を提案し、1)マルチアテンションアーキテクチャとダイバーシティ・レギュレータを提案し、セマンティック属性とより整合した複数の局所視覚特徴を学習し、2)幾何学的に多様な局所特徴を入力として取り込むプロジェクタアンサンブルを提案する。
論文 参考訳(メタデータ) (2022-03-17T01:31:27Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。
WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文 参考訳(メタデータ) (2021-10-10T12:03:52Z) - Discriminative Region-based Multi-Label Zero-Shot Learning [145.0952336375342]
マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、標準のシングルラベルZSLのより現実的な対位法である。
本稿では,地域別識別可能性保存型ZSLに対する代替アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-20T17:56:47Z) - Unsupervised Feature Learning by Cross-Level Instance-Group
Discrimination [68.83098015578874]
我々は、インスタンスグループ化ではなく、クロスレベルな識別によって、インスタンス間の類似性を対照的な学習に統合する。
CLDは、教師なし学習を、自然データや現実世界のアプリケーションに効果的に近づける。
セルフスーパービジョン、セミスーパービジョン、トランスファーラーニングベンチマークに関する新たな最先端技術は、報告されたすべてのパフォーマンスでMoCo v2とSimCLRを上回っている。
論文 参考訳(メタデータ) (2020-08-09T21:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。