論文の概要: Leaving Reality to Imagination: Robust Classification via Generated
Datasets
- arxiv url: http://arxiv.org/abs/2302.02503v1
- Date: Sun, 5 Feb 2023 22:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 17:59:25.595362
- Title: Leaving Reality to Imagination: Robust Classification via Generated
Datasets
- Title(参考訳): Imaginationに現実性を残す - 生成データセットによるロバスト分類
- Authors: Hritik Bansal, Aditya Grover
- Abstract要約: 生成したデータが画像分類器の自然な堅牢性に与える影響について検討する。
生成したデータで強化された実データに基づいて訓練された画像ネット分類器は、標準トレーニングよりも精度が高く、効果的に頑健であることがわかった。
進化している生成データセットであるImageNet-G-v1を導入、分析し、堅牢で信頼性の高い機械学習のためのスタンドアロン生成データセットの設計、ユーティリティ、批評をより良くベンチマークする。
- 参考スコア(独自算出の注目度): 24.411444438920988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research on robustness has revealed significant performance gaps
between neural image classifiers trained on datasets that are similar to the
test set, and those that are from a naturally shifted distribution, such as
sketches, paintings, and animations of the object categories observed during
training. Prior work focuses on reducing this gap by designing engineered
augmentations of training data or through unsupervised pretraining of a single
large model on massive in-the-wild training datasets scraped from the Internet.
However, the notion of a dataset is also undergoing a paradigm shift in recent
years. With drastic improvements in the quality, ease-of-use, and access to
modern generative models, generated data is pervading the web. In this light,
we study the question: How do these generated datasets influence the natural
robustness of image classifiers? We find that Imagenet classifiers trained on
real data augmented with generated data achieve higher accuracy and effective
robustness than standard training and popular augmentation strategies in the
presence of natural distribution shifts. We analyze various factors influencing
these results, including the choice of conditioning strategies and the amount
of generated data. Lastly, we introduce and analyze an evolving generated
dataset, ImageNet-G-v1, to better benchmark the design, utility, and critique
of standalone generated datasets for robust and trustworthy machine learning.
The code and datasets are available at
https://github.com/Hritikbansal/generative-robustness.
- Abstract(参考訳): 近年のロバスト性に関する研究では、テストセットに類似したデータセットでトレーニングされたニューラルイメージ分類器と、トレーニング中に観察されたオブジェクトカテゴリのスケッチ、絵画、アニメーションなど、自然にシフトしたディストリビューションによるパフォーマンスギャップが明らかにされている。
以前の研究は、トレーニングデータのエンジニアリング強化や、インターネットから取り除かれた大規模なトレーニングデータセット上の単一の大規模モデルの教師なし事前トレーニングによって、このギャップを減らすことに重点を置いていた。
しかし、データセットの概念は近年、パラダイムシフトも進行中である。
品質、使いやすさ、モダンな生成モデルへのアクセスの大幅な改善により、生成されたデータはWebに浸透しています。
これらの生成されたデータセットは、画像分類器の自然なロバスト性にどのように影響するか?
生成データに拡張された実データに基づいてトレーニングされたimagenet分類器は,自然分布シフトの存在下で,標準的なトレーニングや一般的な拡張戦略よりも高い精度と効果的なロバスト性を実現する。
コンディショニング戦略の選択や生成データの量など,これらの結果に影響を与えるさまざまな要因を分析した。
最後に、進化している生成データセットであるImageNet-G-v1を導入、分析し、堅牢で信頼性の高い機械学習のためのスタンドアロン生成データセットの設計、ユーティリティ、批評をより良くベンチマークする。
コードとデータセットはhttps://github.com/hritikbansal/generative-robustnessで入手できる。
関連論文リスト
- Diffusion-based Neural Network Weights Generation [85.6725307453325]
データセット条件付き事前学習重み抽出による効率よく適応的な伝達学習手法を提案する。
具体的には、ニューラルネットワークの重みを再構築できる変分オートエンコーダを備えた潜時拡散モデルを用いる。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - On the Stability of Iterative Retraining of Generative Models on their
own Data [56.153542044045224]
生成モデルの訓練がデータセット(実データと合成データの混合データ)の安定性に及ぼす影響について検討した。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Feedback-guided Data Synthesis for Imbalanced Classification [11.625643407385391]
有用な合成サンプルを用いて静的データセットを拡張するためのフレームワークを提案する。
サンプルはタスクの実際のデータのサポートに近づき、十分に多様であることに気付きました。
ImageNet-LTでは、表現不足のクラスでは4%以上改善され、最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-09-29T21:47:57Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Diffusion-based Data Augmentation for Skin Disease Classification:
Impact Across Original Medical Datasets to Fully Synthetic Images [2.5075774184834803]
深層ニューラルネットワークは、過度な適合を避けるために、依然として大量のトレーニングデータに依存している。
医療のような現実世界のアプリケーションのためのラベル付きトレーニングデータには制限があり、アクセスが困難である。
我々は,我々の大脳皮質皮膚疾患データセットのトレーニングサンプルを増強する上で,テキスト・画像拡散確率モデルの成功を生かした。
論文 参考訳(メタデータ) (2023-01-12T04:22:23Z) - Assessing Dataset Bias in Computer Vision [0.0]
偏見は、訓練するモデルに伝播する傾向があり、しばしば少数派ではパフォーマンスが劣る。
UTKFaceデータセットのサンプルに、アンダーサンプリング、幾何変換、可変オートエンコーダ(VAE)、生成逆ネットワーク(GAN)など、いくつかの拡張手法を適用する。
FairFaceモデルと比較して、複数のデータセット上の年齢と民族の分類において、我々のモデルが全体的なパフォーマンスと一貫性を向上できることを示しました。
論文 参考訳(メタデータ) (2022-05-03T22:45:49Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。