論文の概要: Improving Fractal Pre-training
- arxiv url: http://arxiv.org/abs/2110.03091v1
- Date: Wed, 6 Oct 2021 22:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:43:42.018196
- Title: Improving Fractal Pre-training
- Title(参考訳): フラクタル予習の改善
- Authors: Connor Anderson and Ryan Farrell
- Abstract要約: 動的に生成されたフラクタル画像に基づく事前学習データセットを提案する。
実験により, フラクタルを用いたネットワークの微調整は, ImageNet事前訓練ネットワークの精度の92.7-98.1%に達することが示された。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The deep neural networks used in modern computer vision systems require
enormous image datasets to train them. These carefully-curated datasets
typically have a million or more images, across a thousand or more distinct
categories. The process of creating and curating such a dataset is a monumental
undertaking, demanding extensive effort and labelling expense and necessitating
careful navigation of technical and social issues such as label accuracy,
copyright ownership, and content bias.
What if we had a way to harness the power of large image datasets but with
few or none of the major issues and concerns currently faced? This paper
extends the recent work of Kataoka et. al. (2020), proposing an improved
pre-training dataset based on dynamically-generated fractal images. Challenging
issues with large-scale image datasets become points of elegance for fractal
pre-training: perfect label accuracy at zero cost; no need to store/transmit
large image archives; no privacy/demographic bias/concerns of inappropriate
content, as no humans are pictured; limitless supply and diversity of images;
and the images are free/open-source. Perhaps surprisingly, avoiding these
difficulties imposes only a small penalty in performance. Leveraging a
newly-proposed pre-training task -- multi-instance prediction -- our
experiments demonstrate that fine-tuning a network pre-trained using fractals
attains 92.7-98.1\% of the accuracy of an ImageNet pre-trained network.
- Abstract(参考訳): 現代のコンピュータビジョンシステムで使用されるディープニューラルネットワークは、トレーニングに膨大な画像データセットを必要とする。
これらの慎重に計算されたデータセットは通常、数千以上の異なるカテゴリにわたる100万以上の画像を持つ。
このようなデータセットを作成してキュレーションするプロセスは目覚ましい作業であり、膨大な労力を要し、コストをラベル付けし、ラベルの正確性、著作権の所有、コンテンツバイアスといった技術的および社会的問題を慎重にナビゲートする必要がある。
大規模な画像データセットのパワーを活用できたが、現在直面している主要な問題や懸念がほとんど、あるいは全くなかったらどうだろうか?
本稿では,片岡らの最新研究について述べる。
al. (2020) は動的に生成されたフラクタル画像に基づく改良された事前学習データセットを提案する。
大規模な画像データセットの課題は、フラクタル事前トレーニングのエレガンスなポイントとなっている: ゼロコストでの完全なラベル精度、大規模な画像アーカイブの保存/転送不要、不適切なコンテンツのプライバシー/デポグラフィックバイアス/認識なし、画像の無制限な供給と多様性、画像は無料/オープンソースである。
おそらく驚くことに、これらの困難を避けることは、パフォーマンスにわずかなペナルティしか課さない。
我々の実験では、フラクタルを用いたネットワークの微調整が、ImageNet事前トレーニングネットワークの精度の92.7-98.1\%に達することを示した。
関連論文リスト
- Scaling Backwards: Minimal Synthetic Pre-training? [52.78699562832907]
予備学習は最小限の合成画像でも有効であることを示す。
その結果,1kから1kへの合成画像の大幅な削減は,事前学習性能の向上につながることが判明した。
提案手法は,合成画像から実画像へ拡張し,単一の実画像が類似した事前学習効果を示すかどうかを確認する。
論文 参考訳(メタデータ) (2024-08-01T16:20:02Z) - Deep Image Composition Meets Image Forgery [0.0]
画像偽造は長年研究されてきた。
ディープラーニングモデルは、トレーニングのために大量のラベル付きデータを必要とする。
本研究では,画像合成深層学習モデルを用いて,実生活における操作の質に近いスプライシング画像を生成する。
論文 参考訳(メタデータ) (2024-04-03T17:54:37Z) - PromptMix: Text-to-image diffusion models enhance the performance of
lightweight networks [83.08625720856445]
ディープラーニングタスクは、人間のオペレーターに時間がかかりすぎるアノテーションを必要とする。
本稿では,既存のデータセットのサイズを人工的に向上するPromptMixを紹介する。
PromptMixは軽量ネットワークの性能を最大26%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-01-30T14:15:47Z) - Procedural Image Programs for Representation Learning [62.557911005179946]
我々は,2万プログラムからなる大規模なデータセットを用いて,多様な合成画像を生成する訓練を提案する。
これらのプログラムは短いコードスニペットであり、変更が容易で、高速に実行することができる。
提案したデータセットは、教師付きおよび教師なしの表現学習の両方に使用することができ、実際の画像と手続き的に生成された画像との事前学習のギャップを38%削減する。
論文 参考訳(メタデータ) (2022-11-29T17:34:22Z) - Is Deep Image Prior in Need of a Good Education? [57.3399060347311]
画像再構成に有効な先行画像として, 奥行き画像が導入された。
その印象的な再建性にもかかわらず、学習技術や伝統的な再建技術と比べてアプローチは遅い。
計算課題に対処する2段階の学習パラダイムを開発する。
論文 参考訳(メタデータ) (2021-11-23T15:08:26Z) - Inferring Offensiveness In Images From Natural Language Supervision [20.294073012815854]
ウェブから自動的に取り除かれた大規模な画像データセットには、カテゴリや攻撃的なイメージといった軽蔑的な用語が含まれる可能性がある。
我々は、事前学習されたトランスフォーマー自体が、大規模ビジョンデータセットの自動キュレーションのための方法論を提供することを示した。
論文 参考訳(メタデータ) (2021-10-08T16:19:21Z) - See through Gradients: Image Batch Recovery via GradInversion [103.26922860665039]
我々は、より大きなバッチからの入力イメージをResNets(50層)のような大規模ネットワークでも復元できるGradInversionを紹介した。
複雑なデータセット、ディープネットワーク、大規模なバッチサイズであっても、GradInversionを通じて、個々のイメージを高い忠実度で復元できるような、驚くほど大量の情報をエンコードする勾配を示す。
論文 参考訳(メタデータ) (2021-04-15T16:43:17Z) - Leveraging Self-Supervision for Cross-Domain Crowd Counting [71.75102529797549]
混雑したシーンで人をカウントするための最先端の方法は、群衆密度を推定するために深いネットワークに依存します。
われわれのネットワークは、通常の画像から逆さまの実際の画像を認識できるように訓練し、その不確実性を予測する能力を組み込む。
このアルゴリズムは、推論時に余分な計算をせずに、最先端のクロスドメイン群をカウントするアルゴリズムを一貫して上回る。
論文 参考訳(メタデータ) (2021-03-30T12:37:55Z) - Increasing the Robustness of Semantic Segmentation Models with
Painting-by-Numbers [39.95214171175713]
我々は,物体の形状に対するネットワークバイアスを増大させることにより,出力を改善することができる画像分類からの洞察に基づいて構築する。
我々の基本的な考え方は、RGBトレーニング画像の一部を偽画像でアルファブレンドすることであり、各クラスラベルには、固定されたランダムに選択された色が与えられる。
各種ネットワークバックボーン,MobileNet-V2,ResNets,Xceptionを用いたDeepLabv3+のトレーニングスキーマの有効性を実証し,Cityscapesデータセットで評価した。
論文 参考訳(メタデータ) (2020-10-12T07:42:39Z) - SlideImages: A Dataset for Educational Image Classification [8.607440622310904]
教育イラストの分類を行うためのデータセットであるSlideImagesを提示する。
実際の教育画像はすべてテストデータセットとして保存しました。
本稿では,標準のディープニューラルアーキテクチャを用いたベースラインシステムを提案する。
論文 参考訳(メタデータ) (2020-01-19T13:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。