論文の概要: Small in-distribution changes in 3D perspective and lighting fool both
CNNs and Transformers
- arxiv url: http://arxiv.org/abs/2106.16198v1
- Date: Wed, 30 Jun 2021 16:49:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 13:49:48.474388
- Title: Small in-distribution changes in 3D perspective and lighting fool both
CNNs and Transformers
- Title(参考訳): 3次元視界の小さな分布変化と照明はCNNとトランスフォーマーの両方を騙す
- Authors: Spandan Madan, Tomotake Sasaki, Tzu-Mao Li, Xavier Boix, Hanspeter
Pfister
- Abstract要約: ネットワークは、小さな3D視点の変化や照明の変化に対して脆弱であることを示す。
我々は、CMA-Searchと呼ばれる進化戦略(ES)ベースのアプローチを導入する。
我々は、ResNetとOpenAIのCLIPモデルの両方に対して、ImageNet画像の近傍で誤分類を見つけるために、この手法を拡張した。
- 参考スコア(独自算出の注目度): 25.637284029226493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks are susceptible to small transformations including 2D
rotations and shifts, image crops, and even changes in object colors. This is
often attributed to biases in the training dataset, and the lack of 2D
shift-invariance due to not respecting the sampling theorem. In this paper, we
challenge this hypothesis by training and testing on unbiased datasets, and
showing that networks are brittle to both small 3D perspective changes and
lighting variations which cannot be explained by dataset bias or lack of
shift-invariance. To find these in-distribution errors, we introduce an
evolution strategies (ES) based approach, which we call CMA-Search. Despite
training with a large-scale (0.5 million images), unbiased dataset of camera
and light variations, in over 71% cases CMA-Search can find camera parameters
in the vicinity of a correctly classified image which lead to in-distribution
misclassifications with < 3.6% change in parameters. With lighting changes,
CMA-Search finds misclassifications in 33% cases with < 11.6% change in
parameters. Finally, we extend this method to find misclassifications in the
vicinity of ImageNet images for both ResNet and OpenAI's CLIP model.
- Abstract(参考訳): ニューラルネットワークは、2次元回転やシフト、画像作物、さらにはオブジェクトの色の変化など、小さな変換に影響を受けやすい。
これは、トレーニングデータセットのバイアスと、サンプリング定理を尊重しないため、2次元シフト不変性の欠如に起因することが多い。
本稿では,偏りのないデータセットをトレーニングし,テストすることで,ネットワークが小さな3次元視点の変化や,データセットのバイアスやシフト不変性の欠如で説明できない光の変動に対して脆弱であることを示す。
これらの分散エラーを見つけるために,我々はCMA-Searchと呼ぶ進化戦略(ES)ベースのアプローチを導入する。
大規模(0.5万枚の画像)でのトレーニング、カメラの偏りのないデータセットと光の変動にもかかわらず、71%以上のケースでCMA-Searchは、正しく分類された画像の近傍でカメラパラメータを見つけることができ、パラメータが3.6%変化した。
照明の変更により、CMA-Searchはパラメータが11.6%以下の33%のケースで誤分類を発見した。
最後に、この手法を拡張して、ResNetとOpenAIのCLIPモデルの両方に対して、ImageNet画像の近傍で誤分類を見つける。
関連論文リスト
- Feature Corrective Transfer Learning: End-to-End Solutions to Object Detection in Non-Ideal Visual Conditions [11.90136900277127]
障害シナリオにおけるオブジェクトのエンドツーエンド検出を容易にする新しい手法として,"Feature Corrective Transfer Learning"がある。
非理想画像は、初期理想RGBモデルと特徴マップを比較して処理される。
このアプローチは、直接特徴写像補正により、様々な条件にまたがってオブジェクト検出を行うモデルの能力を洗練させる。
論文 参考訳(メタデータ) (2024-04-17T09:58:53Z) - Revisiting Data Augmentation for Rotational Invariance in Convolutional
Neural Networks [0.29127054707887967]
画像分類のためのCNNにおける回転不変性について検討する。
実験により、データ拡張だけで訓練されたネットワークは、通常の非回転の場合と同様に、回転した画像の分類がほぼ可能であることが示された。
論文 参考訳(メタデータ) (2023-10-12T15:53:24Z) - The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。
我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。
我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文 参考訳(メタデータ) (2023-08-21T01:59:45Z) - Scale-Equivariant Deep Learning for 3D Data [44.52688267348063]
畳み込みニューラルネットワーク(CNN)は、画像の位置に関係なく物体を認識する。
本稿では,3次元データに対するスケール・等価な畳み込みネットワーク層を提案する。
本実験は,3次元医用画像解析の尺度等式化における提案手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2023-04-12T13:56:12Z) - DC4L: Distribution Shift Recovery via Data-Driven Control for Deep Learning Models [4.374569172244273]
学習したモデルに対する制御を用いて、オンライン配信のシフトから回復することを提案する。
提案手法では, 学習セットにシフトしたデータを近づけるために, セマンティック保存変換のシーケンスを適用した。
本稿では,ImageNet-Cベンチマークからのシフトの合成に一般化し,平均精度を最大9.81%向上することを示す。
論文 参考訳(メタデータ) (2023-02-20T22:06:26Z) - Learning Transformations To Reduce the Geometric Shift in Object
Detection [60.20931827772482]
画像キャプチャプロセスの変動から生じる幾何シフトに対処する。
我々は、これらのシフトを最小限に抑えるために幾何変換の集合を学習する自己学習アプローチを導入する。
我々は,カメラの視野変化(FoV)と視点変化(視点変化)の2つの異なるシフトについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-01-13T11:55:30Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - What Does CNN Shift Invariance Look Like? A Visualization Study [87.79405274610681]
畳み込みニューラルネットワーク(CNN)による特徴抽出は、機械学習タスクの画像を表現する一般的な方法である。
我々は,一般的な市販CNNモデルから抽出した特徴量の変動を計測し,可視化することに注力する。
人気ネットワークから抽出された特徴はグローバルに不変ではなく,この分散の中にバイアスやアーティファクトが存在すると結論付けている。
論文 参考訳(メタデータ) (2020-11-09T01:16:30Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。