論文の概要: ImageNet-X: Understanding Model Mistakes with Factor of Variation
Annotations
- arxiv url: http://arxiv.org/abs/2211.01866v1
- Date: Thu, 3 Nov 2022 14:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 12:41:06.248757
- Title: ImageNet-X: Understanding Model Mistakes with Factor of Variation
Annotations
- Title(参考訳): ImageNet-X: 変分アノテーションによるモデルミスを理解する
- Authors: Badr Youbi Idrissi, Diane Bouchacourt, Randall Balestriero, Ivan
Evtimov, Caner Hazirbas, Nicolas Ballas, Pascal Vincent, Michal Drozdzal,
David Lopez-Paz, Mark Ibrahim
- Abstract要約: 我々は、ポーズ、背景、照明などの要素の16の人間のアノテーションセットであるImageNet-Xを紹介する。
本稿では,現在の認識モデル2200について検討し,モデルアーキテクチャの関数としての誤りの種類について検討する。
モデルにはImageNet-Xカテゴリ全体で一貫した障害モードがある。
- 参考スコア(独自算出の注目度): 36.348968311668564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning vision systems are widely deployed across applications where
reliability is critical. However, even today's best models can fail to
recognize an object when its pose, lighting, or background varies. While
existing benchmarks surface examples challenging for models, they do not
explain why such mistakes arise. To address this need, we introduce ImageNet-X,
a set of sixteen human annotations of factors such as pose, background, or
lighting the entire ImageNet-1k validation set as well as a random subset of
12k training images. Equipped with ImageNet-X, we investigate 2,200 current
recognition models and study the types of mistakes as a function of model's (1)
architecture, e.g. transformer vs. convolutional, (2) learning paradigm, e.g.
supervised vs. self-supervised, and (3) training procedures, e.g., data
augmentation. Regardless of these choices, we find models have consistent
failure modes across ImageNet-X categories. We also find that while data
augmentation can improve robustness to certain factors, they induce spill-over
effects to other factors. For example, strong random cropping hurts robustness
on smaller objects. Together, these insights suggest to advance the robustness
of modern vision models, future research should focus on collecting additional
data and understanding data augmentation schemes. Along with these insights, we
release a toolkit based on ImageNet-X to spur further study into the mistakes
image recognition systems make.
- Abstract(参考訳): ディープラーニングのビジョンシステムは、信頼性が重要なアプリケーション間で広く展開される。
しかし、現在の最高のモデルでさえ、ポーズ、照明、背景が変わるとオブジェクトを認識できない可能性がある。
既存のベンチマークでは、モデルに挑戦する例が浮かび上がっているが、なぜそのようなミスが起こるのかは説明されていない。
このニーズに対処するために、imagenet-1k検証セット全体および1kトレーニングイメージのランダムサブセットのポーズ、背景、照明などの要素の16の人間のアノテーションセットであるimagenet-xを紹介する。
ImageNet-Xを組み込んだ2,200の現在の認識モデルを調査し,(1)モデルアーキテクチャの関数としての誤りの種類,(2)トランスフォーマー対畳み込み,(2)学習パラダイム,(2)教師付き対自己監督,(3)データ拡張などのトレーニング手順について検討する。
これらの選択にかかわらず、ImageNet-Xカテゴリ間で一貫した障害モードを持つモデルが見つかる。
また、データ拡張は特定の要因に対する堅牢性を向上させることができるが、他の要因に対する流出効果を誘発する。
例えば、強いランダムな切り抜きは小さな物体の頑丈さを損なう。
これらの知見は、現代のビジョンモデルの堅牢性の向上を示唆し、将来の研究は、追加データ収集とデータ拡張スキームの理解に焦点を当てるべきである。
これらの知見と合わせて,画像認識システムによる誤りのさらなる研究を促すために,ImageNet-Xに基づくツールキットをリリースする。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文 参考訳(メタデータ) (2023-12-09T04:43:49Z) - ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing [45.14977000707886]
ImageNetにおける高い精度は、通常、異なる汚職に対してより堅牢性をもたらす。
我々は、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成する。
我々は、畳み込みニューラルネットワークと視覚変換器の両方を含む現在のディープラーニングモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-03-30T02:02:32Z) - Diverse, Difficult, and Odd Instances (D2O): A New Test Set for Object
Classification [47.64219291655723]
既存のテストセットと十分に異なるD2Oと呼ばれる新しいテストセットを導入します。
私たちのデータセットには、36のカテゴリにまたがる8,060のイメージが含まれており、そのうち29がImageNetに表示されています。
私たちのデータセットで最高のTop-1精度は約60%で、ImageNetで91%のTop-1精度よりもはるかに低いです。
論文 参考訳(メタデータ) (2023-01-29T19:58:32Z) - ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial
Viewpoints [42.64942578228025]
本研究では,視覚認識モデルにミスリードする敵対的視点を見つけるために,ViewFoolという新しい手法を提案する。
現実世界の物体をニューラル放射場(NeRF)として符号化することにより、ViewFoolは多様な敵の視点の分布を特徴付ける。
論文 参考訳(メタデータ) (2022-10-08T03:06:49Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Automated Cleanup of the ImageNet Dataset by Model Consensus,
Explainability and Confident Learning [0.0]
ImageNetは、ILSVRC12Netでトレーニングされた様々な畳み込みニューラルネットワーク(CNN)のバックボーンである。
本稿では,モデルのコンセンサス,説明可能性,自信のある学習に基づく自動アプリケーションについて述べる。
ImageNet-CleanはSqueezeNetおよびEfficientNet-B0モデルのモデルパフォーマンスを2-2.4%向上させる。
論文 参考訳(メタデータ) (2021-03-30T13:16:35Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。