論文の概要: Visual Atoms: Pre-training Vision Transformers with Sinusoidal Waves
- arxiv url: http://arxiv.org/abs/2303.01112v1
- Date: Thu, 2 Mar 2023 09:47:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:05:11.262904
- Title: Visual Atoms: Pre-training Vision Transformers with Sinusoidal Waves
- Title(参考訳): 視覚原子:正弦波を用いた事前学習型視覚トランスフォーマー
- Authors: Sora Takashima, Ryo Hayamizu, Nakamasa Inoue, Hirokatsu Kataoka, Rio
Yokota
- Abstract要約: フォーミュラ駆動型教師あり学習は, 変圧器の事前学習に有効な方法であることが示されている。
VisualAtom-21kはViT-Baseの事前トレーニングに使用されており、ImageNet-1kの微調整時にトップ1の精度は83.7%に達した。
静的データセットであるJFT-300Mとは異なり、合成データセットの品質は改善され続けている。
- 参考スコア(独自算出の注目度): 18.5408134000081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Formula-driven supervised learning (FDSL) has been shown to be an effective
method for pre-training vision transformers, where ExFractalDB-21k was shown to
exceed the pre-training effect of ImageNet-21k. These studies also indicate
that contours mattered more than textures when pre-training vision
transformers. However, the lack of a systematic investigation as to why these
contour-oriented synthetic datasets can achieve the same accuracy as real
datasets leaves much room for skepticism. In the present work, we develop a
novel methodology based on circular harmonics for systematically investigating
the design space of contour-oriented synthetic datasets. This allows us to
efficiently search the optimal range of FDSL parameters and maximize the
variety of synthetic images in the dataset, which we found to be a critical
factor. When the resulting new dataset VisualAtom-21k is used for pre-training
ViT-Base, the top-1 accuracy reached 83.7% when fine-tuning on ImageNet-1k.
This is close to the top-1 accuracy (84.2%) achieved by JFT-300M pre-training,
while the number of images is 1/14. Unlike JFT-300M which is a static dataset,
the quality of synthetic datasets will continue to improve, and the current
work is a testament to this possibility. FDSL is also free of the common issues
associated with real images, e.g. privacy/copyright issues, labeling
costs/errors, and ethical biases.
- Abstract(参考訳): fdsl(formula-driven supervised learning)は、imagenet-21kの事前学習効果を超えるexfractaldb-21kが示されている視覚トランスフォーマーの事前学習に有効であることが示されている。
これらの研究は、輪郭が前訓練された視覚変換器のテクスチャよりも重要であったことも示している。
しかし、なぜ輪郭指向の合成データセットが実際のデータセットと同じ精度を達成できるのかという体系的な調査がないため、懐疑論の余地は少ない。
本研究では,輪郭指向合成データセットの設計空間を体系的に研究するための円高調波に基づく新しい手法を開発する。
これにより、最適なfdslパラメータの範囲を効率的に探索し、データセット内の合成画像の多様性を最大化することができます。
新たなデータセット visualatom-21k が vit-base の事前トレーニングに使用されると、imagenet-1k の微調整時に top-1 の精度は 83.7% に達した。
これは JFT-300M の事前トレーニングによって達成されたトップ-1 の精度 (84.2%) に近い。
静的データセットである JFT-300M とは異なり、合成データセットの品質は改善され続けており、現在の作業はこの可能性の証である。
FDSLはまた、実際の画像に関連する一般的な問題、例えば、プライバシー/コピーライト問題、コスト/エラーのラベル付け、倫理的偏見など、自由である。
関連論文リスト
- Scaling Backwards: Minimal Synthetic Pre-training? [52.78699562832907]
予備学習は最小限の合成画像でも有効であることを示す。
その結果,1kから1kへの合成画像の大幅な削減は,事前学習性能の向上につながることが判明した。
提案手法は,合成画像から実画像へ拡張し,単一の実画像が類似した事前学習効果を示すかどうかを確認する。
論文 参考訳(メタデータ) (2024-08-01T16:20:02Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - Replacing Labeled Real-image Datasets with Auto-generated Contours [20.234550996148748]
公式駆動型教師あり学習は,実画像を用いることなく,ImageNet-21kのそれと一致したり,超えたりできることを示す。
公式によって生成された画像は、プライバシ/コピーライトの問題、コストとエラーのラベル付け、実際の画像が抱えるバイアスを回避します。
論文 参考訳(メタデータ) (2022-06-18T06:43:38Z) - RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。
データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。
高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文 参考訳(メタデータ) (2022-05-14T13:15:32Z) - Task2Sim : Towards Effective Pre-training and Transfer from Synthetic
Data [74.66568380558172]
本稿では,グラフィックスシミュレータから下流タスクへの合成データに基づく事前学習モデルの転送可能性について検討する。
本稿では、最適なシミュレーションパラメータに対する下流タスク表現を統一したモデルマッピングであるTask2Simを紹介する。
このマッピングはトレーニングによって学習し、"見える"タスクのセットで最適なパラメータのセットを見つける。
トレーニングが完了すると、ワンショットで新しい"見えない"タスクの最適なシミュレーションパラメータを予測するために使用することができる。
論文 参考訳(メタデータ) (2021-11-30T19:25:27Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - PennSyn2Real: Training Object Recognition Models without Human Labeling [12.923677573437699]
我々はPennSyn2Realを提案する。20種類以上のマイクロエアロビー(MAV)の10万以上の4K画像からなる合成データセットである。
このデータセットは、MAV検出や分類などのハイレベルコンピュータビジョンタスクのための任意の数のトレーニングイメージを生成するために使用することができる。
このフレームワークを用いて生成された合成データは,検出やセグメンテーションといった一般的なオブジェクト認識タスクに対して,CNNモデルをトレーニングするために直接利用できることを示す。
論文 参考訳(メタデータ) (2020-09-22T02:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。