論文の概要: Uncertainty in AI: Evaluating Deep Neural Networks on
Out-of-Distribution Images
- arxiv url: http://arxiv.org/abs/2309.01850v1
- Date: Mon, 4 Sep 2023 22:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:01:55.743208
- Title: Uncertainty in AI: Evaluating Deep Neural Networks on
Out-of-Distribution Images
- Title(参考訳): AIの不確実性: 分布外画像に基づくディープニューラルネットワークの評価
- Authors: Jamiu Idowu and Ahmed Almasoud
- Abstract要約: 本稿では、摂動データを扱う際に、ResNet-50、VGG16、DenseNet121、AlexNet、GoogleNetなど様々なディープニューラルネットワークの不確実性について検討する。
ResNet-50はOODイメージの最も正確なシングルモデルであったが、アンサンブルはより良く、すべてのイメージを正しく分類した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI models are increasingly deployed in critical applications, ensuring the
consistent performance of models when exposed to unusual situations such as
out-of-distribution (OOD) or perturbed data, is important. Therefore, this
paper investigates the uncertainty of various deep neural networks, including
ResNet-50, VGG16, DenseNet121, AlexNet, and GoogleNet, when dealing with such
data. Our approach includes three experiments. First, we used the pretrained
models to classify OOD images generated via DALL-E to assess their performance.
Second, we built an ensemble from the models' predictions using probabilistic
averaging for consensus due to its advantages over plurality or majority
voting. The ensemble's uncertainty was quantified using average probabilities,
variance, and entropy metrics. Our results showed that while ResNet-50 was the
most accurate single model for OOD images, the ensemble performed even better,
correctly classifying all images. Third, we tested model robustness by adding
perturbations (filters, rotations, etc.) to new epistemic images from DALL-E or
real-world captures. ResNet-50 was chosen for this being the best performing
model. While it classified 4 out of 5 unperturbed images correctly, it
misclassified all of them post-perturbation, indicating a significant
vulnerability. These misclassifications, which are clear to human observers,
highlight AI models' limitations. Using saliency maps, we identified regions of
the images that the model considered important for their decisions.
- Abstract(参考訳): aiモデルはますます重要なアプリケーションにデプロイされているため、分散(ood)や摂動データといった異常な状況に晒された場合、モデルの一貫したパフォーマンスを保証することが重要です。
そこで本稿では,ResNet-50,VGG16,DenseNet121,AlexNet,GoogleNetなど,さまざまなディープニューラルネットワークの不確実性について検討する。
我々のアプローチには3つの実験が含まれる。
まず、事前学習モデルを用いて、DALL-Eで生成されたOOD画像を分類し、その性能を評価する。
第2に、複数の投票または多数決よりも有利なコンセンサスのための確率平均法を用いて、モデルの予測からアンサンブルを構築した。
アンサンブルの不確実性は平均確率、分散、エントロピーの指標を用いて定量化された。
その結果, ResNet-50はOOD画像の最も正確な単一モデルであるが, アンサンブルの精度は向上し, 全画像の正確な分類が可能であった。
第3に、DALL-Eや実世界からの新たなてんかん画像に摂動(フィルタ、回転など)を加えることで、モデルロバストネスを検証した。
ResNet-50は最高のパフォーマンスモデルに選ばれた。
5つの不動画像のうち4つを正しく分類したが、摂動後のすべての画像が誤って分類され、重大な脆弱性が示された。
これらの誤分類は、人間の観察者にとって明らかであり、AIモデルの制限を強調している。
精度マップを用いて,モデルが決定に重要と考えられる画像の領域を特定した。
関連論文リスト
- A Comparative Analysis of CNN-based Deep Learning Models for Landslide Detection [0.0]
インド北部とネパールの地すべりは大きな破壊をもたらし、インフラを損傷し、地域社会に脅威を与えている。
近年のインド北部とネパールの地すべりは、大きな破壊を招き、インフラを損傷し、地域社会に脅威を与えている。
ディープラーニング技術の一種であるCNNは、画像処理において顕著な成功を収めている。
論文 参考訳(メタデータ) (2024-08-03T07:20:10Z) - ImageNet-D: Benchmarking Neural Network Robustness on Diffusion Synthetic Object [78.58860252442045]
我々は、深層モデルの堅牢性をベンチマークするハードイメージのためのデータソースとして、生成モデルを紹介した。
このベンチマークを ImageNet-D と呼ぶ以前の作業よりも、背景、テクスチャ、材料が多様化したイメージを生成することができます。
我々の研究は、拡散モデルが視覚モデルをテストするのに効果的な情報源となることを示唆している。
論文 参考訳(メタデータ) (2024-03-27T17:23:39Z) - ImageNet-E: Benchmarking Neural Network Robustness via Attribute Editing [45.14977000707886]
ImageNetにおける高い精度は、通常、異なる汚職に対してより堅牢性をもたらす。
我々は、背景、大きさ、位置、方向の制御によるオブジェクト編集のためのツールキットを作成する。
我々は、畳み込みニューラルネットワークと視覚変換器の両方を含む現在のディープラーニングモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-03-30T02:02:32Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - MDN-VO: Estimating Visual Odometry with Confidence [34.8860186009308]
視覚オドメトリー(VO)は、ロボット工学や自律システムを含む多くのアプリケーションで使われている。
本研究では、6-DoFのポーズを推定する深層学習に基づくVOモデルと、これらの推定に対する信頼度モデルを提案する。
本実験は,本モデルが故障事例の検出に加えて,最先端の性能を上回ることを示す。
論文 参考訳(メタデータ) (2021-12-23T19:26:04Z) - MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。
最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。
モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:55:11Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose
Estimation [74.76155168705975]
Deep Bingham Networks (DBN)は、3Dデータに関するほぼすべての実生活アプリケーションで発生するポーズ関連の不確実性と曖昧性を扱うことができる。
DBNは、(i)異なる分布モードを生成できる多仮説予測ヘッドにより、アートダイレクトポーズ回帰ネットワークの状態を拡張する。
トレーニング中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-12-20T19:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。