論文の概要: Leaving Reality to Imagination: Robust Classification via Generated
Datasets
- arxiv url: http://arxiv.org/abs/2302.02503v1
- Date: Sun, 5 Feb 2023 22:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 17:59:25.595362
- Title: Leaving Reality to Imagination: Robust Classification via Generated
Datasets
- Title(参考訳): Imaginationに現実性を残す - 生成データセットによるロバスト分類
- Authors: Hritik Bansal, Aditya Grover
- Abstract要約: 生成したデータが画像分類器の自然な堅牢性に与える影響について検討する。
生成したデータで強化された実データに基づいて訓練された画像ネット分類器は、標準トレーニングよりも精度が高く、効果的に頑健であることがわかった。
進化している生成データセットであるImageNet-G-v1を導入、分析し、堅牢で信頼性の高い機械学習のためのスタンドアロン生成データセットの設計、ユーティリティ、批評をより良くベンチマークする。
- 参考スコア(独自算出の注目度): 24.411444438920988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research on robustness has revealed significant performance gaps
between neural image classifiers trained on datasets that are similar to the
test set, and those that are from a naturally shifted distribution, such as
sketches, paintings, and animations of the object categories observed during
training. Prior work focuses on reducing this gap by designing engineered
augmentations of training data or through unsupervised pretraining of a single
large model on massive in-the-wild training datasets scraped from the Internet.
However, the notion of a dataset is also undergoing a paradigm shift in recent
years. With drastic improvements in the quality, ease-of-use, and access to
modern generative models, generated data is pervading the web. In this light,
we study the question: How do these generated datasets influence the natural
robustness of image classifiers? We find that Imagenet classifiers trained on
real data augmented with generated data achieve higher accuracy and effective
robustness than standard training and popular augmentation strategies in the
presence of natural distribution shifts. We analyze various factors influencing
these results, including the choice of conditioning strategies and the amount
of generated data. Lastly, we introduce and analyze an evolving generated
dataset, ImageNet-G-v1, to better benchmark the design, utility, and critique
of standalone generated datasets for robust and trustworthy machine learning.
The code and datasets are available at
https://github.com/Hritikbansal/generative-robustness.
- Abstract(参考訳): 近年のロバスト性に関する研究では、テストセットに類似したデータセットでトレーニングされたニューラルイメージ分類器と、トレーニング中に観察されたオブジェクトカテゴリのスケッチ、絵画、アニメーションなど、自然にシフトしたディストリビューションによるパフォーマンスギャップが明らかにされている。
以前の研究は、トレーニングデータのエンジニアリング強化や、インターネットから取り除かれた大規模なトレーニングデータセット上の単一の大規模モデルの教師なし事前トレーニングによって、このギャップを減らすことに重点を置いていた。
しかし、データセットの概念は近年、パラダイムシフトも進行中である。
品質、使いやすさ、モダンな生成モデルへのアクセスの大幅な改善により、生成されたデータはWebに浸透しています。
これらの生成されたデータセットは、画像分類器の自然なロバスト性にどのように影響するか?
生成データに拡張された実データに基づいてトレーニングされたimagenet分類器は,自然分布シフトの存在下で,標準的なトレーニングや一般的な拡張戦略よりも高い精度と効果的なロバスト性を実現する。
コンディショニング戦略の選択や生成データの量など,これらの結果に影響を与えるさまざまな要因を分析した。
最後に、進化している生成データセットであるImageNet-G-v1を導入、分析し、堅牢で信頼性の高い機械学習のためのスタンドアロン生成データセットの設計、ユーティリティ、批評をより良くベンチマークする。
コードとデータセットはhttps://github.com/hritikbansal/generative-robustnessで入手できる。
関連論文リスト
- DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。
我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。
生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文 参考訳(メタデータ) (2024-06-08T10:43:49Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Feedback-guided Data Synthesis for Imbalanced Classification [10.836265321046561]
有用な合成サンプルを用いて静的データセットを拡張するためのフレームワークを提案する。
サンプルはタスクの実際のデータのサポートに近づき、十分に多様であることに気付きました。
ImageNet-LTでは、表現不足のクラスでは4%以上改善され、最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-09-29T21:47:57Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。