論文の概要: Progress and limitations of deep networks to recognize objects in
unusual poses
- arxiv url: http://arxiv.org/abs/2207.08034v1
- Date: Sat, 16 Jul 2022 23:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 07:25:40.199646
- Title: Progress and limitations of deep networks to recognize objects in
unusual poses
- Title(参考訳): 異常なポーズにおける物体認識のための深層ネットワークの進展と限界
- Authors: Amro Abbas, St\'ephane Deny
- Abstract要約: ディープネットワークは、高精細な現実世界のアプリケーションでうまく利用できれば、まれに堅牢でなければならない。
また,近年の38の競合画像分類データセットの収集と評価を行ない,不規則なポーズに対するディープネットワークの分類が課題であることを示す。
この結果から,実世界における深層ネットワークのロバスト性の測定が重要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep networks should be robust to rare events if they are to be successfully
deployed in high-stakes real-world applications (e.g., self-driving cars). Here
we study the capability of deep networks to recognize objects in unusual poses.
We create a synthetic dataset of images of objects in unusual orientations, and
evaluate the robustness of a collection of 38 recent and competitive deep
networks for image classification. We show that classifying these images is
still a challenge for all networks tested, with an average accuracy drop of
29.5% compared to when the objects are presented upright. This brittleness is
largely unaffected by various network design choices, such as training losses
(e.g., supervised vs. self-supervised), architectures (e.g., convolutional
networks vs. transformers), dataset modalities (e.g., images vs. image-text
pairs), and data-augmentation schemes. However, networks trained on very large
datasets substantially outperform others, with the best network
tested$\unicode{x2014}$Noisy Student EfficentNet-L2 trained on
JFT-300M$\unicode{x2014}$showing a relatively small accuracy drop of only 14.5%
on unusual poses. Nevertheless, a visual inspection of the failures of Noisy
Student reveals a remaining gap in robustness with the human visual system.
Furthermore, combining multiple object
transformations$\unicode{x2014}$3D-rotations and
scaling$\unicode{x2014}$further degrades the performance of all networks.
Altogether, our results provide another measurement of the robustness of deep
networks that is important to consider when using them in the real world. Code
and datasets are available at https://github.com/amro-kamal/ObjectPose.
- Abstract(参考訳): 深層ネットワークは、高度な実世界のアプリケーション(自動運転車など)にうまくデプロイされる場合、まれなイベントに対して堅牢であるべきです。
本稿では,異常なポーズで物体を認識するディープネットワークの能力について検討する。
我々は,異方向の物体画像の合成データセットを作成し,画像分類のための最新の38のディープネットワークのロバスト性を評価する。
これらの画像の分類は、テスト対象が直立している場合と比較して平均精度が29.5%低下しているため、テスト対象の全ネットワークにとって依然として課題である。
この脆さは、トレーニング損失(例:教師付き対自己監督)、アーキテクチャ(例:畳み込みネットワーク対トランスフォーマー)、データセットのモダリティ(例:画像対画像-テキスト対)、データ拡張スキームなど、様々なネットワーク設計選択の影響を受けない。
しかし、非常に大きなデータセットでトレーニングされたネットワークは、他のネットワークよりも大幅に優れており、最も優れたネットワークは、jft-300m$\unicode{x2014}$noisyの学生efficentnet-l2をトレーニングした。
それにもかかわらず、騒がしい学生の失敗を視覚的に検査すると、人間の視覚システムとの強固さの欠如が明らかになる。
さらに、複数のオブジェクト変換$\unicode{x2014}$3d回転とスケーリング$\unicode{x2014}$を組み合わせると、すべてのネットワークのパフォーマンスが低下する。
以上から,実世界で使用する際に考慮すべき深層ネットワークのロバスト性について,新たな測定結果が得られた。
コードとデータセットはhttps://github.com/amro-kamal/objectposeで入手できる。
関連論文リスト
- Capsules as viewpoint learners for human pose estimation [4.246061945756033]
カメラが大きな視点変化を受けると、ほとんどのニューラルネットワークがうまく一般化できないことを示す。
本稿では,高速な変分ベイズルーティングとマトリックスカプセルを用いた,エンドツーエンドのポジショニング等価なカプセルオートエンコーダを提案する。
複数のタスクやデータセットに対して、他の望ましい特性を維持しながら、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-13T09:01:46Z) - Finding Differences Between Transformers and ConvNets Using
Counterfactual Simulation Testing [82.67716657524251]
本稿では,ニューラルネットワークの自然的変動に対するロバスト性を研究するための反現実的枠組みを提案する。
我々の手法は、最近リリースされた最先端の畳み込みニューラルネットワークとビジョントランスフォーマーの頑健さを公平に比較することができる。
論文 参考訳(メタデータ) (2022-11-29T18:59:23Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Stereoscopic Universal Perturbations across Different Architectures and
Datasets [60.021985610201156]
本研究では,画像の逆摂動が不均一性推定タスクの深部ステレオマッチングネットワークに与える影響について検討する。
本稿では,データセット内の任意のステレオ画像対に追加されると,ステレオネットワークを騙すことのできる,単一の摂動セットを構築する方法を提案する。
我々の摂動は、最先端のステレオネットワークのD1エラーを1%から87%に増やすことができる。
論文 参考訳(メタデータ) (2021-12-12T02:11:31Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - Increasing the Robustness of Semantic Segmentation Models with
Painting-by-Numbers [39.95214171175713]
我々は,物体の形状に対するネットワークバイアスを増大させることにより,出力を改善することができる画像分類からの洞察に基づいて構築する。
我々の基本的な考え方は、RGBトレーニング画像の一部を偽画像でアルファブレンドすることであり、各クラスラベルには、固定されたランダムに選択された色が与えられる。
各種ネットワークバックボーン,MobileNet-V2,ResNets,Xceptionを用いたDeepLabv3+のトレーニングスキーマの有効性を実証し,Cityscapesデータセットで評価した。
論文 参考訳(メタデータ) (2020-10-12T07:42:39Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。