論文の概要: ImageNet-21K Pretraining for the Masses
- arxiv url: http://arxiv.org/abs/2104.10972v1
- Date: Thu, 22 Apr 2021 10:10:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 19:55:31.014277
- Title: ImageNet-21K Pretraining for the Masses
- Title(参考訳): ImageNet-21K Pretraining for the Masses
- Authors: Tal Ridnik, Emanuel Ben-Baruch, Asaf Noy, Lihi Zelnik-Manor
- Abstract要約: ImageNet-1Kは、コンピュータビジョンタスクのためのディープラーニングモデルを事前訓練するための主要なデータセットである。
ImageNet-21Kデータセットにはより多くの写真とクラスが含まれている。
本稿では,ImageNet-21Kの高品質な事前トレーニングを実現することを目的とする。
- 参考スコア(独自算出の注目度): 12.339884639594624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ImageNet-1K serves as the primary dataset for pretraining deep learning
models for computer vision tasks. ImageNet-21K dataset, which contains more
pictures and classes, is used less frequently for pretraining, mainly due to
its complexity, and underestimation of its added value compared to standard
ImageNet-1K pretraining. This paper aims to close this gap, and make
high-quality efficient pretraining on ImageNet-21K available for everyone. %
Via a dedicated preprocessing stage, utilizing WordNet hierarchies, and a novel
training scheme called semantic softmax, we show that various models, including
small mobile-oriented models, significantly benefit from ImageNet-21K
pretraining on numerous datasets and tasks. We also show that we outperform
previous ImageNet-21K pretraining schemes for prominent new models like ViT. %
Our proposed pretraining pipeline is efficient, accessible, and leads to SoTA
reproducible results, from a publicly available dataset. The training code and
pretrained models are available at: https://github.com/Alibaba-MIIL/ImageNet21K
- Abstract(参考訳): ImageNet-1Kは、コンピュータビジョンタスクのためのディープラーニングモデルを事前訓練するための主要なデータセットである。
ImageNet-21Kデータセットは、より多くの画像やクラスを含むが、その複雑さと、標準のImageNet-1Kプリトレーニングと比較して付加価値の過小評価のため、事前トレーニングにはあまり使われない。
本稿では,このギャップを解消し,ImageNet-21Kの高品質な事前トレーニングを実現することを目的とする。
% Va は WordNet 階層と,セマンティック・ソフトマックス(セマンティック・ソフトマックス) と呼ばれる新しいトレーニング手法を利用して,ImageNet-21K による多数のデータセットやタスクの事前学習のメリットを顕著に示す。
また、vitのような著名な新モデルのimagenet-21kプリトレーニング方式よりも優れています。
% 提案した事前学習パイプラインは効率が高く,アクセス可能であり,一般に公開されているデータセットからSoTA再現可能な結果につながる。
トレーニングコードと事前トレーニングされたモデルは、https://github.com/Alibaba-MIIL/ImageNet21Kで公開されている。
関連論文リスト
- Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - Large-scale Dataset Pruning with Dynamic Uncertainty [28.60845105174658]
画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集して、より大きなモデルをトレーニングすることによって進歩している。
本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。
論文 参考訳(メタデータ) (2023-06-08T13:14:35Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Core Risk Minimization using Salient ImageNet [53.616101711801484]
私たちは、1000のImagenetクラスのコアとスプリアス機能をローカライズする100万人以上のソフトマスクを備えたSalient Imagenetデータセットを紹介します。
このデータセットを用いて、まず、いくつかのImagenet事前訓練されたモデル(総計42件)の素早い特徴に対する依存度を評価する。
次に、コアリスク最小化(CoRM)と呼ばれる新しい学習パラダイムを導入する。
論文 参考訳(メタデータ) (2022-03-28T01:53:34Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Are Large-scale Datasets Necessary for Self-Supervised Pre-training? [29.49873710927313]
対象のタスクデータのみを活用する自己指導型事前学習シナリオについて検討する。
本研究は,BEiTなどのデノイングオートエンコーダが,事前学習データの種類やサイズに対してより堅牢であることを示す。
COCOでは、COCOイメージのみを使用して事前トレーニングを行う場合、検出とインスタンスセグメンテーションのパフォーマンスは、同等の設定で教師付きImageNet事前トレーニングを上回る。
論文 参考訳(メタデータ) (2021-12-20T18:41:32Z) - Learning Transferable Visual Models From Natural Language Supervision [13.866297967166089]
画像に関する生のテキストから直接学ぶことは、有望な代替手段だ。
本研究では,どのキャプションがどの画像で動くかを予測する単純な事前学習タスクが,効率よく,スケーラブルな学習方法であることを実証する。
SOTA画像表現は、インターネットから収集された4億(画像、テキスト)のデータセットから学習される。
論文 参考訳(メタデータ) (2021-02-26T19:04:58Z) - Rethinking Pre-training and Self-training [105.27954735761678]
我々は、同じ設定で追加データを利用する別の方法として自己学習を調査し、ImageNet事前学習と対比する。
本研究は, 自己学習の汎用性と柔軟性について, 3つの考察を加えて明らかにした。
例えば、COCOオブジェクト検出データセットでは、ラベル付きデータの5分の1を使用すると事前トレーニングのメリットがあり、ラベル付きデータのすべてを使用すると精度が低下します。
論文 参考訳(メタデータ) (2020-06-11T23:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。