論文の概要: Replacing Labeled Real-image Datasets with Auto-generated Contours
- arxiv url: http://arxiv.org/abs/2206.09132v1
- Date: Sat, 18 Jun 2022 06:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 13:31:39.182874
- Title: Replacing Labeled Real-image Datasets with Auto-generated Contours
- Title(参考訳): ラベル付き実画像データセットを自動生成輪郭に置き換える
- Authors: Hirokatsu Kataoka, Ryo Hayamizu, Ryosuke Yamada, Kodai Nakashima, Sora
Takashima, Xinyu Zhang, Edgar Josafat Martinez-Noriega, Nakamasa Inoue, Rio
Yokota
- Abstract要約: 公式駆動型教師あり学習は,実画像を用いることなく,ImageNet-21kのそれと一致したり,超えたりできることを示す。
公式によって生成された画像は、プライバシ/コピーライトの問題、コストとエラーのラベル付け、実際の画像が抱えるバイアスを回避します。
- 参考スコア(独自算出の注目度): 20.234550996148748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the present work, we show that the performance of formula-driven
supervised learning (FDSL) can match or even exceed that of ImageNet-21k
without the use of real images, human-, and self-supervision during the
pre-training of Vision Transformers (ViTs). For example, ViT-Base pre-trained
on ImageNet-21k shows 81.8% top-1 accuracy when fine-tuned on ImageNet-1k and
FDSL shows 82.7% top-1 accuracy when pre-trained under the same conditions
(number of images, hyperparameters, and number of epochs). Images generated by
formulas avoid the privacy/copyright issues, labeling cost and errors, and
biases that real images suffer from, and thus have tremendous potential for
pre-training general models. To understand the performance of the synthetic
images, we tested two hypotheses, namely (i) object contours are what matter in
FDSL datasets and (ii) increased number of parameters to create labels affects
performance improvement in FDSL pre-training. To test the former hypothesis, we
constructed a dataset that consisted of simple object contour combinations. We
found that this dataset can match the performance of fractals. For the latter
hypothesis, we found that increasing the difficulty of the pre-training task
generally leads to better fine-tuning accuracy.
- Abstract(参考訳): 本研究では,視覚変換器(ViT)の事前学習において,実像,人間,自己超越を使わずに,公式駆動型教師あり学習(FDSL)の性能がImageNet-21kのそれと一致または超えることを示す。
例えば、imagenet-21kで事前トレーニングされたvitベースは、imagenet-1kとfdslで微調整した場合、81.8%top-1精度を示し、同じ条件(画像数、ハイパーパラメータ、エポック数)で事前トレーニングした場合、82.7%top-1精度を示す。
公式によって生成された画像は、プライバシ/コピーライトの問題、コストとエラーのラベル付け、実際の画像が抱えるバイアスを回避します。
合成画像の性能を理解するために,二つの仮説,すなわち2つの仮説を検証した。
(i)オブジェクトの輪郭はFDSLデータセットで問題となる。
(II) FDSL事前学習の性能向上に影響を及ぼすラベル作成パラメータの増加。
従来の仮説をテストするために、単純なオブジェクトの輪郭の組み合わせからなるデータセットを構築した。
このデータセットはフラクタルの性能にマッチすることがわかった。
後者の仮説では, 事前学習作業の難易度を増大させることで, 微調整精度が向上することがわかった。
関連論文リスト
- Scaling Backwards: Minimal Synthetic Pre-training? [52.78699562832907]
予備学習は最小限の合成画像でも有効であることを示す。
その結果,1kから1kへの合成画像の大幅な削減は,事前学習性能の向上につながることが判明した。
提案手法は,合成画像から実画像へ拡張し,単一の実画像が類似した事前学習効果を示すかどうかを確認する。
論文 参考訳(メタデータ) (2024-08-01T16:20:02Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Pre-training Vision Transformers with Very Limited Synthesized Images [18.627567043226172]
フォーミュラ駆動型教師あり学習 (F) はフラクタルのような数式から生成される合成画像に依存する事前学習法である。
F に関する以前の研究は、このような合成データセット上の事前学習された視覚変換器は、幅広い下流タスクで競合する精度が得られることを示した。
論文 参考訳(メタデータ) (2023-07-27T08:58:39Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Visual Atoms: Pre-training Vision Transformers with Sinusoidal Waves [18.5408134000081]
フォーミュラ駆動型教師あり学習は, 変圧器の事前学習に有効な方法であることが示されている。
VisualAtom-21kはViT-Baseの事前トレーニングに使用されており、ImageNet-1kの微調整時にトップ1の精度は83.7%に達した。
静的データセットであるJFT-300Mとは異なり、合成データセットの品質は改善され続けている。
論文 参考訳(メタデータ) (2023-03-02T09:47:28Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - Task2Sim : Towards Effective Pre-training and Transfer from Synthetic
Data [74.66568380558172]
本稿では,グラフィックスシミュレータから下流タスクへの合成データに基づく事前学習モデルの転送可能性について検討する。
本稿では、最適なシミュレーションパラメータに対する下流タスク表現を統一したモデルマッピングであるTask2Simを紹介する。
このマッピングはトレーニングによって学習し、"見える"タスクのセットで最適なパラメータのセットを見つける。
トレーニングが完了すると、ワンショットで新しい"見えない"タスクの最適なシミュレーションパラメータを予測するために使用することができる。
論文 参考訳(メタデータ) (2021-11-30T19:25:27Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。