論文の概要: ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object
- arxiv url: http://arxiv.org/abs/2403.18775v1
- Date: Wed, 27 Mar 2024 17:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 15:59:48.008781
- Title: ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object
- Title(参考訳): ImageNet-D:拡散合成対象のニューラルネットワークロバストネスのベンチマーク
- Authors: Chenshuang Zhang, Fei Pan, Junmo Kim, In So Kweon, Chengzhi Mao,
- Abstract要約: 我々は、深層モデルの堅牢性をベンチマークするハードイメージのためのデータソースとして、生成モデルを紹介した。
このベンチマークを ImageNet-D と呼ぶ以前の作業よりも、背景、テクスチャ、材料が多様化したイメージを生成することができます。
我々の研究は、拡散モデルが視覚モデルをテストするのに効果的な情報源となることを示唆している。
- 参考スコア(独自算出の注目度): 78.58860252442045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We establish rigorous benchmarks for visual perception robustness. Synthetic images such as ImageNet-C, ImageNet-9, and Stylized ImageNet provide specific type of evaluation over synthetic corruptions, backgrounds, and textures, yet those robustness benchmarks are restricted in specified variations and have low synthetic quality. In this work, we introduce generative model as a data source for synthesizing hard images that benchmark deep models' robustness. Leveraging diffusion models, we are able to generate images with more diversified backgrounds, textures, and materials than any prior work, where we term this benchmark as ImageNet-D. Experimental results show that ImageNet-D results in a significant accuracy drop to a range of vision models, from the standard ResNet visual classifier to the latest foundation models like CLIP and MiniGPT-4, significantly reducing their accuracy by up to 60\%. Our work suggests that diffusion models can be an effective source to test vision models. The code and dataset are available at https://github.com/chenshuang-zhang/imagenet_d.
- Abstract(参考訳): 我々は、視覚知覚の堅牢性のための厳密なベンチマークを確立する。
ImageNet-C、ImageNet-9、Stylized ImageNetのような合成画像は、合成汚職、背景、テクスチャに対する特定のタイプの評価を提供するが、それらの堅牢性ベンチマークは特定のバリエーションに制限されており、合成品質が低い。
本研究では,深層モデルのロバスト性を評価するハードイメージを合成するためのデータソースとして生成モデルを導入する。
拡散モデルを活用することで、これまでのどの作業よりも多様な背景、テクスチャ、素材を持つ画像を生成することができ、このベンチマークを ImageNet-D と呼ぶ。
実験の結果、ImageNet-Dは標準的なResNet視覚分類器からCLIPやMiniGPT-4のような最新の基礎モデルまで、様々な視覚モデルに顕著な精度低下をもたらし、その精度を最大60倍まで低下させることがわかった。
我々の研究は、拡散モデルが視覚モデルをテストするのに効果的な情報源となることを示唆している。
コードとデータセットはhttps://github.com/chenshuang-zhang/imagenet_d.comで公開されている。
関連論文リスト
- ImagiNet: A Multi-Content Dataset for Generalizable Synthetic Image Detection via Contrastive Learning [0.0]
生成モデルは、実際の写真やアートワークとほとんど区別がつかない、信頼性の高い画像を生成する。
合成画像の識別が困難であるため、オンラインメディアプラットフォームは偽造や誤情報に脆弱である。
合成画像検出のための高分解能かつバランスの取れたデータセットであるImagiNetを紹介する。
論文 参考訳(メタデータ) (2024-07-29T13:57:24Z) - ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing [45.14977000707886]
ImageNetにおける高い精度は、通常、異なる汚職に対してより堅牢性をもたらす。
我々は、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成する。
我々は、畳み込みニューラルネットワークと視覚変換器の両方を含む現在のディープラーニングモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-03-30T02:02:32Z) - Fake it till you make it: Learning transferable representations from
synthetic ImageNet clones [30.264601433216246]
ImageNetクローンは、合成画像と実画像で訓練されたモデルとのギャップの大部分を埋めることができることを示す。
合成画像上で訓練されたモデルは,強い一般化特性を示し,実際のデータで訓練されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-12-16T11:44:01Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Towards Robustness of Neural Networks [0.0]
我々は、画像Net-A/O と ImageNet-R と、合成環境とテストスイートである CAOS を紹介した。
すべてのデータセットは、ロバストネスのテストとロバストネスの進捗測定のために作成されました。
我々は、単純なベースラインを最大ロジット、典型スコアの形式で構築するとともに、DeepAugmentの形式で新しいデータ拡張手法を作成します。
論文 参考訳(メタデータ) (2021-12-30T19:41:10Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - Shape-Texture Debiased Neural Network Training [50.6178024087048]
畳み込みニューラルネットワークは、トレーニングデータセットによって、テクスチャまたは形状にバイアスされることが多い。
形状・テクスチャ・デバイアスド学習のためのアルゴリズムを開発した。
実験により,本手法は複数の画像認識ベンチマークにおけるモデル性能の向上に成功していることが示された。
論文 参考訳(メタデータ) (2020-10-12T19:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。