論文の概要: Scaling Backwards: Minimal Synthetic Pre-training?
- arxiv url: http://arxiv.org/abs/2408.00677v2
- Date: Sat, 3 Aug 2024 04:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 12:36:51.831977
- Title: Scaling Backwards: Minimal Synthetic Pre-training?
- Title(参考訳): 後方スケーリング: 最小限の合成事前トレーニング?
- Authors: Ryo Nakamura, Ryu Tadokoro, Ryosuke Yamada, Yuki M. Asano, Iro Laina, Christian Rupprecht, Nakamasa Inoue, Rio Yokota, Hirokatsu Kataoka,
- Abstract要約: 予備学習は最小限の合成画像でも有効であることを示す。
その結果,1kから1kへの合成画像の大幅な削減は,事前学習性能の向上につながることが判明した。
提案手法は,合成画像から実画像へ拡張し,単一の実画像が類似した事前学習効果を示すかどうかを確認する。
- 参考スコア(独自算出の注目度): 52.78699562832907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training and transfer learning are an important building block of current computer vision systems. While pre-training is usually performed on large real-world image datasets, in this paper we ask whether this is truly necessary. To this end, we search for a minimal, purely synthetic pre-training dataset that allows us to achieve performance similar to the 1 million images of ImageNet-1k. We construct such a dataset from a single fractal with perturbations. With this, we contribute three main findings. (i) We show that pre-training is effective even with minimal synthetic images, with performance on par with large-scale pre-training datasets like ImageNet-1k for full fine-tuning. (ii) We investigate the single parameter with which we construct artificial categories for our dataset. We find that while the shape differences can be indistinguishable to humans, they are crucial for obtaining strong performances. (iii) Finally, we investigate the minimal requirements for successful pre-training. Surprisingly, we find that a substantial reduction of synthetic images from 1k to 1 can even lead to an increase in pre-training performance, a motivation to further investigate ''scaling backwards''. Finally, we extend our method from synthetic images to real images to see if a single real image can show similar pre-training effect through shape augmentation. We find that the use of grayscale images and affine transformations allows even real images to ''scale backwards''.
- Abstract(参考訳): 事前学習と伝達学習は、現在のコンピュータビジョンシステムの重要な構成要素である。
プレトレーニングは通常、大規模な実世界の画像データセット上で実施されるが、本論文では、これが本当に必要かどうかを問う。
この目的のために、我々は、ImageNet-1kの100万枚の画像と似たパフォーマンスを達成できる最小限の、純粋に合成された事前学習データセットを探索する。
摂動を伴う単一フラクタルからそのようなデータセットを構築する。
これには3つの主要な発見がある。
(i)画像Net-1kのような大規模事前学習データセットと同等の性能で、最小限の合成画像でも事前学習が有効であることを示す。
(2)データセットに人工的なカテゴリを構築する単一パラメータについて検討する。
形状の違いは人間には区別できないが、強い性能を得るためには不可欠である。
3) 最後に, 事前学習を成功させるための最小限の要件について検討する。
驚くべきことに,合成画像の1kから1kへの大幅な削減は,事前学習性能の向上につながることが判明した。
最後に,本手法を合成画像から実画像へ拡張し,形状拡張による類似した事前学習効果を実画像で示せるかを確認する。
グレースケール画像とアフィン変換を使用することで、実際の画像でさえ'スケールバック'できることがわかった。
関連論文リスト
- Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - Synthetic Image Data for Deep Learning [0.294944680995069]
3次元モデルからレンダリングされたリアルな合成画像データを使用して、画像集合を拡大し、画像分類セグメンテーションモデルを訓練することができる。
実車の生産3次元CADモデルに基づく大規模合成データセットを,高品質な物理ベースレンダリングとドメインランダム化により効率的に作成できることを示す。
論文 参考訳(メタデータ) (2022-12-12T20:28:13Z) - Replacing Labeled Real-image Datasets with Auto-generated Contours [20.234550996148748]
公式駆動型教師あり学習は,実画像を用いることなく,ImageNet-21kのそれと一致したり,超えたりできることを示す。
公式によって生成された画像は、プライバシ/コピーライトの問題、コストとエラーのラベル付け、実際の画像が抱えるバイアスを回避します。
論文 参考訳(メタデータ) (2022-06-18T06:43:38Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z) - Task2Sim : Towards Effective Pre-training and Transfer from Synthetic
Data [74.66568380558172]
本稿では,グラフィックスシミュレータから下流タスクへの合成データに基づく事前学習モデルの転送可能性について検討する。
本稿では、最適なシミュレーションパラメータに対する下流タスク表現を統一したモデルマッピングであるTask2Simを紹介する。
このマッピングはトレーニングによって学習し、"見える"タスクのセットで最適なパラメータのセットを見つける。
トレーニングが完了すると、ワンショットで新しい"見えない"タスクの最適なシミュレーションパラメータを予測するために使用することができる。
論文 参考訳(メタデータ) (2021-11-30T19:25:27Z) - Is Deep Image Prior in Need of a Good Education? [57.3399060347311]
画像再構成に有効な先行画像として, 奥行き画像が導入された。
その印象的な再建性にもかかわらず、学習技術や伝統的な再建技術と比べてアプローチは遅い。
計算課題に対処する2段階の学習パラダイムを開発する。
論文 参考訳(メタデータ) (2021-11-23T15:08:26Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。