論文の概要: Finding Differences Between Transformers and ConvNets Using
Counterfactual Simulation Testing
- arxiv url: http://arxiv.org/abs/2211.16499v1
- Date: Tue, 29 Nov 2022 18:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 14:33:38.747863
- Title: Finding Differences Between Transformers and ConvNets Using
Counterfactual Simulation Testing
- Title(参考訳): 数値シミュレーションによる変圧器と共振器の差分探索
- Authors: Nataniel Ruiz, Sarah Adel Bargal, Cihang Xie, Kate Saenko, Stan
Sclaroff
- Abstract要約: 本稿では,ニューラルネットワークの自然的変動に対するロバスト性を研究するための反現実的枠組みを提案する。
我々の手法は、最近リリースされた最先端の畳み込みニューラルネットワークとビジョントランスフォーマーの頑健さを公平に比較することができる。
- 参考スコア(独自算出の注目度): 82.67716657524251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern deep neural networks tend to be evaluated on static test sets. One
shortcoming of this is the fact that these deep neural networks cannot be
easily evaluated for robustness issues with respect to specific scene
variations. For example, it is hard to study the robustness of these networks
to variations of object scale, object pose, scene lighting and 3D occlusions.
The main reason is that collecting real datasets with fine-grained naturalistic
variations of sufficient scale can be extremely time-consuming and expensive.
In this work, we present Counterfactual Simulation Testing, a counterfactual
framework that allows us to study the robustness of neural networks with
respect to some of these naturalistic variations by building realistic
synthetic scenes that allow us to ask counterfactual questions to the models,
ultimately providing answers to questions such as "Would your classification
still be correct if the object were viewed from the top?" or "Would your
classification still be correct if the object were partially occluded by
another object?". Our method allows for a fair comparison of the robustness of
recently released, state-of-the-art Convolutional Neural Networks and Vision
Transformers, with respect to these naturalistic variations. We find evidence
that ConvNext is more robust to pose and scale variations than Swin, that
ConvNext generalizes better to our simulated domain and that Swin handles
partial occlusion better than ConvNext. We also find that robustness for all
networks improves with network scale and with data scale and variety. We
release the Naturalistic Variation Object Dataset (NVD), a large simulated
dataset of 272k images of everyday objects with naturalistic variations such as
object pose, scale, viewpoint, lighting and occlusions. Project page:
https://counterfactualsimulation.github.io
- Abstract(参考訳): 現代のディープニューラルネットワークは静的テストセットで評価される傾向がある。
この欠点の1つは、特定のシーンのバリエーションに関して、これらのディープニューラルネットワークが堅牢性の問題に対して容易に評価できないという事実である。
例えば、これらのネットワークの堅牢性について、オブジェクトスケール、オブジェクトポーズ、シーンライティング、および3Dオクルージョンのバリエーションについて研究することは困難である。
主な理由は、十分なスケールのきめ細かい自然主義的なバリエーションを持つ実際のデータセットを集めるのに非常に時間がかかり、コストがかかるためである。
In this work, we present Counterfactual Simulation Testing, a counterfactual framework that allows us to study the robustness of neural networks with respect to some of these naturalistic variations by building realistic synthetic scenes that allow us to ask counterfactual questions to the models, ultimately providing answers to questions such as "Would your classification still be correct if the object were viewed from the top?" or "Would your classification still be correct if the object were partially occluded by another object?".
提案手法は,最近リリースされた,最先端の畳み込みニューラルネットワークと視覚変換器の強靭性を,これらの自然的変動に対して公平に比較することができる。
我々は、ConvNextはSwinよりもポーズとスケールのばらつきが強く、ConvNextは我々のシミュレートされたドメインをより一般化し、SwinはConvNextよりも部分的なオクルージョンを扱うという証拠を発見した。
また、すべてのネットワークに対するロバスト性は、ネットワークスケールとデータスケールと多様性によって改善される。
対象のポーズやスケール,視点,照明,オクルージョンといった自然的変動を伴う,日常オブジェクトの272k画像の大規模シミュレーションデータセットである naturalistic variation object dataset (nvd) をリリースする。
プロジェクトページ: https://counterfactualsimulation.github.io
関連論文リスト
- The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。
我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。
我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文 参考訳(メタデータ) (2023-08-21T01:59:45Z) - D-IF: Uncertainty-aware Human Digitization via Implicit Distribution
Field [16.301611237147863]
そこで本研究では,暗黙の値を適応不確かさ分布に置き換えて,表面への距離に基づいて点を区別する手法を提案する。
この分散の遷移に対する単純な値は、ほぼすべてのベースラインに対して大きな改善をもたらす。
その結果、不確実性分布損失を用いてトレーニングされたモデルは、より複雑なしわや現実的な手足を捉えることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T08:31:11Z) - Capsules as viewpoint learners for human pose estimation [4.246061945756033]
カメラが大きな視点変化を受けると、ほとんどのニューラルネットワークがうまく一般化できないことを示す。
本稿では,高速な変分ベイズルーティングとマトリックスカプセルを用いた,エンドツーエンドのポジショニング等価なカプセルオートエンコーダを提案する。
複数のタスクやデータセットに対して、他の望ましい特性を維持しながら、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-13T09:01:46Z) - A Comprehensive Study of Image Classification Model Sensitivity to
Foregrounds, Backgrounds, and Visual Attributes [58.633364000258645]
このデータセットをRIVAL10と呼びます。
本研究では,前景,背景,属性の騒音劣化に対する幅広いモデルの感度を評価する。
本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。
論文 参考訳(メタデータ) (2022-01-26T06:31:28Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Learning Online Visual Invariances for Novel Objects via Supervised and
Self-Supervised Training [0.76146285961466]
本稿では,複数の変換を行う合成3Dオブジェクトの画像を認識するためのトレーニングモデルにより,標準的なCNNが人間のようなオンライン不変性をサポートできるかどうかを評価する。
変換対象を訓練した標準教師付きCNNは,10クラスから50個のオブジェクトを抽出して訓練しても,新しいクラスで強い不変性を得ることができることを示す。
論文 参考訳(メタデータ) (2021-10-04T14:29:43Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - 6D Camera Relocalization in Ambiguous Scenes via Continuous Multimodal
Inference [67.70859730448473]
あいまいさと不確かさを捉えるマルチモーダルカメラ再ローカライズフレームワークを提案する。
我々は、複数のカメラのポーズ仮説を予測し、それぞれの予測の不確実性も予測する。
あいまいな環境下でのカメラローカライゼーション研究を促進するための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-04-09T20:55:06Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。