論文の概要: Jigsaw Clustering for Unsupervised Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2104.00323v1
- Date: Thu, 1 Apr 2021 08:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:39:17.631089
- Title: Jigsaw Clustering for Unsupervised Visual Representation Learning
- Title(参考訳): 教師なし視覚表現学習のためのJigsawクラスタリング
- Authors: Pengguang Chen, Shu Liu, Jiaya Jia
- Abstract要約: 本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
- 参考スコア(独自算出の注目度): 68.09280490213399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised representation learning with contrastive learning achieved great
success. This line of methods duplicate each training batch to construct
contrastive pairs, making each training batch and its augmented version
forwarded simultaneously and leading to additional computation. We propose a
new jigsaw clustering pretext task in this paper, which only needs to forward
each training batch itself, and reduces the training cost. Our method makes use
of information from both intra- and inter-images, and outperforms previous
single-batch based ones by a large margin. It is even comparable to the
contrastive learning methods when only half of training batches are used.
Our method indicates that multiple batches during training are not necessary,
and opens the door for future research of single-batch unsupervised methods.
Our models trained on ImageNet datasets achieve state-of-the-art results with
linear classification, outperforming previous single-batch methods by 2.6%.
Models transferred to COCO datasets outperform MoCo v2 by 0.4% with only half
of the training batches. Our pretrained models outperform supervised ImageNet
pretrained models on CIFAR-10 and CIFAR-100 datasets by 0.9% and 4.1%
respectively. Code is available at
https://github.com/Jia-Research-Lab/JigsawClustering
- Abstract(参考訳): 教師なし表現学習と対照学習は大きな成功を収めた。
この一連のメソッドは、各トレーニングバッチを複製してコントラストペアを構築し、各トレーニングバッチとその拡張バージョンを同時に転送し、追加の計算に繋がる。
本論文では,各トレーニングバッチを前進させるだけで,トレーニングコストを削減できる新しいjigsawクラスタリングプリテキストタスクを提案する。
本手法は画像内と画像間の両方からの情報を活用し、従来のシングルバッチベースの情報よりも大きなマージンで勝る。
トレーニングバッチの半分しか使用していない場合、対照的な学習方法にさえ匹敵する。
提案手法は,訓練中の複数のバッチは不要であり,単一バッチ非教師なし手法の今後の研究への扉を開くものである。
ImageNetデータセットでトレーニングしたモデルでは,線形分類による最先端の結果が得られ,従来の単一バッチ手法よりも2.6%向上した。
COCOデータセットに転送されたモデルは、トレーニングバッチの半分でMoCo v2を0.4%上回る。
我々の事前学習モデルは、CIFAR-10とCIFAR-100データセットでそれぞれ0.9%と4.1%の教師付きImageNetモデルより優れています。
コードはhttps://github.com/Jia-Research-Lab/JigsawClusteringで入手できる。
関連論文リスト
- Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - No Data Augmentation? Alternative Regularizations for Effective Training
on Small Datasets [0.0]
我々は、小さな画像分類データセットにおける教師あり学習の限界を推し進めるために、代替正規化戦略について研究する。
特に,モデルパラメータのノルムを通した最適学習率と重み減衰対の選択に非依存を用いる。
テスト精度は66.5%に達し、最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2023-09-04T16:13:59Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Co-training $2^L$ Submodels for Visual Recognition [67.02999567435626]
サブモデルコトレーニングは、コトレーニング、自己蒸留、深さに関連する正規化手法である。
サブモデルのコトレーニングは,画像分類やセマンティックセグメンテーションなどの認識タスクのためのバックボーンのトレーニングに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-09T14:38:09Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - A Simple Baseline that Questions the Use of Pretrained-Models in
Continual Learning [30.023047201419825]
いくつかの手法は、事前訓練された表現に基づいて連続学習機構を設計し、継続学習のトレーニング中に最小限のアップデートやバックボーンモデルの更新を許可しない。
我々は、事前訓練された特徴抽出器自体が、Split-CIFAR100およびCoRe 50ベンチマーク上での競争力や継続学習性能を達成するのに十分な強度を持つと論じる。
このベースラインは10-Split-CIFAR-100で88.53%を達成した。
論文 参考訳(メタデータ) (2022-10-10T04:19:53Z) - Efficiently Teaching an Effective Dense Retriever with Balanced Topic
Aware Sampling [37.01593605084575]
TAS-Balancedは、効率的なトピック認識クエリとバランスの取れたマージンサンプリング技術です。
本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T16:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。