論文の概要: Pre-training Vision Transformers with Very Limited Synthesized Images
- arxiv url: http://arxiv.org/abs/2307.14710v1
- Date: Thu, 27 Jul 2023 08:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 15:11:15.791356
- Title: Pre-training Vision Transformers with Very Limited Synthesized Images
- Title(参考訳): 超限定合成画像を用いた事前学習型視覚変換器
- Authors: Ryo Nakamura1, Hirokatsu Kataoka, Sora Takashima, Edgar Josafat
Martinez Noriega, Rio Yokota and Nakamasa Inoue
- Abstract要約: フォーミュラ駆動型教師あり学習 (F) はフラクタルのような数式から生成される合成画像に依存する事前学習法である。
F に関する以前の研究は、このような合成データセット上の事前学習された視覚変換器は、幅広い下流タスクで競合する精度が得られることを示した。
- 参考スコア(独自算出の注目度): 17.281897115721748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Formula-driven supervised learning (FDSL) is a pre-training method that
relies on synthetic images generated from mathematical formulae such as
fractals. Prior work on FDSL has shown that pre-training vision transformers on
such synthetic datasets can yield competitive accuracy on a wide range of
downstream tasks. These synthetic images are categorized according to the
parameters in the mathematical formula that generate them. In the present work,
we hypothesize that the process for generating different instances for the same
category in FDSL, can be viewed as a form of data augmentation. We validate
this hypothesis by replacing the instances with data augmentation, which means
we only need a single image per category. Our experiments shows that this
one-instance fractal database (OFDB) performs better than the original dataset
where instances were explicitly generated. We further scale up OFDB to 21,000
categories and show that it matches, or even surpasses, the model pre-trained
on ImageNet-21k in ImageNet-1k fine-tuning. The number of images in OFDB is
21k, whereas ImageNet-21k has 14M. This opens new possibilities for
pre-training vision transformers with much smaller datasets.
- Abstract(参考訳): フォーミュラ駆動型教師あり学習(FDSL)はフラクタルなどの数式から生成される合成画像に依存する事前学習法である。
FDSLの以前の研究は、このような合成データセット上で事前学習された視覚変換器は、幅広い下流タスクで競合する精度が得られることを示した。
これらの合成画像は、それらを生成する数学的公式のパラメータに従って分類される。
本研究では、FDSLにおける同じカテゴリの異なるインスタンスを生成するプロセスは、データ拡張の一形態と見なすことができると仮定する。
インスタンスをデータ拡張に置き換えることで、この仮説を検証する。
実験の結果,この一インスタンスフラクタルデータベース(OFDB)は,インスタンスが明示的に生成された元のデータセットよりも優れた性能を示した。
さらに、OFDBを21,000のカテゴリにスケールアップし、ImageNet-1kファインチューニングでImageNet-21kで事前トレーニングされたモデルと一致するか、あるいは超えるかを示す。
OFDBのイメージ数は21k、ImageNet-21kは14Mである。
これにより、より小さなデータセットで事前トレーニングされたビジョントランスフォーマーの新たな可能性が開ける。
関連論文リスト
- Scaling Backwards: Minimal Synthetic Pre-training? [52.78699562832907]
予備学習は最小限の合成画像でも有効であることを示す。
その結果,1kから1kへの合成画像の大幅な削減は,事前学習性能の向上につながることが判明した。
提案手法は,合成画像から実画像へ拡張し,単一の実画像が類似した事前学習効果を示すかどうかを確認する。
論文 参考訳(メタデータ) (2024-08-01T16:20:02Z) - SynCDR : Training Cross Domain Retrieval Models with Synthetic Data [69.26882668598587]
クロスドメイン検索では、同じ意味圏から2つの視覚領域にまたがるイメージを識別するためにモデルが必要である。
我々は、これらの欠落したカテゴリの例を満たすために、ドメイン間で合成データを生成する方法を示す。
最高のSynCDRモデルは、先行技術よりも最大15%パフォーマンスが向上します。
論文 参考訳(メタデータ) (2023-12-31T08:06:53Z) - Visual Atoms: Pre-training Vision Transformers with Sinusoidal Waves [18.5408134000081]
フォーミュラ駆動型教師あり学習は, 変圧器の事前学習に有効な方法であることが示されている。
VisualAtom-21kはViT-Baseの事前トレーニングに使用されており、ImageNet-1kの微調整時にトップ1の精度は83.7%に達した。
静的データセットであるJFT-300Mとは異なり、合成データセットの品質は改善され続けている。
論文 参考訳(メタデータ) (2023-03-02T09:47:28Z) - Replacing Labeled Real-image Datasets with Auto-generated Contours [20.234550996148748]
公式駆動型教師あり学習は,実画像を用いることなく,ImageNet-21kのそれと一致したり,超えたりできることを示す。
公式によって生成された画像は、プライバシ/コピーライトの問題、コストとエラーのラベル付け、実際の画像が抱えるバイアスを回避します。
論文 参考訳(メタデータ) (2022-06-18T06:43:38Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。