論文の概要: Are Deep Learning Models Robust to Partial Object Occlusion in Visual Recognition Tasks?
- arxiv url: http://arxiv.org/abs/2409.10775v1
- Date: Mon, 16 Sep 2024 23:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 18:30:27.620195
- Title: Are Deep Learning Models Robust to Partial Object Occlusion in Visual Recognition Tasks?
- Title(参考訳): 深層学習モデルは視覚認識課題における部分的物体排除に頑健か?
- Authors: Kaleb Kassaw, Francesco Luzi, Leslie M. Collins, Jordan M. Malof,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)を含む画像分類モデルは、様々な分類タスクでうまく機能するが、部分閉塞下では困難である。
我々は最近開発されたOccluded Video Instance(IRUO)データセット(arXiv:2102.01558)を基にした画像認識(IRUO)データセットをコントリビュートする。
現代のCNNベースモデルでは、従来のCNNベースモデルと比較して、隠蔽画像の認識精度が向上しており、ViTベースモデルは隠蔽画像のCNNベースモデルよりも精度が高いことが判明した。
- 参考スコア(独自算出の注目度): 4.9260675787714
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Image classification models, including convolutional neural networks (CNNs), perform well on a variety of classification tasks but struggle under conditions of partial occlusion, i.e., conditions in which objects are partially covered from the view of a camera. Methods to improve performance under occlusion, including data augmentation, part-based clustering, and more inherently robust architectures, including Vision Transformer (ViT) models, have, to some extent, been evaluated on their ability to classify objects under partial occlusion. However, evaluations of these methods have largely relied on images containing artificial occlusion, which are typically computer-generated and therefore inexpensive to label. Additionally, methods are rarely compared against each other, and many methods are compared against early, now outdated, deep learning models. We contribute the Image Recognition Under Occlusion (IRUO) dataset, based on the recently developed Occluded Video Instance Segmentation (OVIS) dataset (arXiv:2102.01558). IRUO utilizes real-world and artificially occluded images to test and benchmark leading methods' robustness to partial occlusion in visual recognition tasks. In addition, we contribute the design and results of a human study using images from IRUO that evaluates human classification performance at multiple levels and types of occlusion. We find that modern CNN-based models show improved recognition accuracy on occluded images compared to earlier CNN-based models, and ViT-based models are more accurate than CNN-based models on occluded images, performing only modestly worse than human accuracy. We also find that certain types of occlusion, including diffuse occlusion, where relevant objects are seen through "holes" in occluders such as fences and leaves, can greatly reduce the accuracy of deep recognition models as compared to humans, especially those with CNN backbones.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)を含む画像分類モデルは、様々な分類タスクでうまく機能するが、部分閉塞の条件、すなわち、物体がカメラの視界から部分的に覆われている条件下では苦労する。
データ拡張、部分ベースのクラスタリング、ViT(Vision Transformer)モデルなど、本質的に堅牢なアーキテクチャなど、隠蔽下でのパフォーマンスを改善する方法は、ある程度は、部分閉塞下でオブジェクトを分類する能力に基づいて評価されている。
しかし、これらの手法の評価は、一般的にコンピュータ生成され、ラベル付けに安価である人工閉塞を含む画像に大きく依存している。
さらに、メソッドを互いに比較することは滅多になく、多くのメソッドを早期、現在時代遅れのディープラーニングモデルと比較する。
我々は,最近開発されたOccluded Video Instance Segmentation (OVIS) データセット (arXiv:2102.01558) に基づいて,IRUOデータセットにコントリビュートする。
IRUOは、実世界の画像と人工的に隠蔽された画像を用いて、視覚認識タスクにおける部分閉塞に対する先行手法の堅牢性をテストし、ベンチマークする。
また,IRUOの画像を用いて,多段階,多種多様な咬合者の分類性能を評価した結果を提示する。
現代のCNNベースモデルでは、従来のCNNベースモデルと比較して認識精度が向上しており、ViTベースモデルは、隠蔽画像のCNNベースモデルよりも精度が高く、人間の精度よりもわずかに劣っていることがわかった。
また, フェンスや葉などの隠蔽体の「穴」を通して対象物が観察される拡散閉塞を含むある種の閉塞は, 人体, 特にCNN背骨と比較して, 深部認識モデルの精度を大幅に低下させる可能性が示唆された。
関連論文リスト
- Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。
本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Now You See Me: Robust approach to Partial Occlusions [0.15229257192293202]
オブジェクトの排除はコンピュータビジョンにおいて不可欠である問題の1つである。
本稿では,Stanford Carのデータセットを利用した合成データセットについて紹介する。
我々は,VGG-19,ResNet 50/101,GoogleNet,DenseNet 121などの芸術CNNモデルのさまざまな状態を用いて総合解析を行う。
論文 参考訳(メタデータ) (2023-04-24T00:31:49Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Contemplating real-world object classification [53.10151901863263]
Barbuらが最近提案したObjectNetデータセットを再分析した。
日常の状況に物を含むこと。
分離されたオブジェクトにディープモデルを適用すると、元の論文のようにシーン全体ではなく、約20~30%の性能改善が得られます。
論文 参考訳(メタデータ) (2021-03-08T23:29:59Z) - A Study for Universal Adversarial Attacks on Texture Recognition [19.79803434998116]
テストされたテクスチャデータセットの80%以上で、ディープラーニングモデルを騙すことができる画像非依存/普遍的摂動が存在することを示す。
テストデータセット上の様々な攻撃手法を用いた計算摂動は、概して準知覚可能であり、低、中、高周波数成分の構造化パターンを含む。
論文 参考訳(メタデータ) (2020-10-04T08:11:11Z) - Eigen-CAM: Class Activation Map using Principal Components [1.2691047660244335]
この論文は、解釈可能で堅牢で透明なモデルに対する需要の増加に対応するために、従来の考え方に基づいている。
提案したEigen-CAMは、畳み込み層から学習した特徴/表現の基本的なコンポーネントを計算し、視覚化する。
論文 参考訳(メタデータ) (2020-08-01T17:14:13Z) - Compositional Convolutional Neural Networks: A Robust and Interpretable
Model for Object Recognition under Occlusion [21.737411464598797]
ブラックボックス深部畳み込みニューラルネットワーク(DCNN)は,部分閉塞に対する頑健性に限界がある。
構成畳み込みニューラルネットワーク(CompositionalNets)に部分ベースモデルとDCNNを統合することで、これらの制限を克服する。
実験により,コンポジションネットは,部分閉塞物体の分類・検出において,非構成対象に比べて大きなマージンで改善されていることが示された。
論文 参考訳(メタデータ) (2020-06-28T08:18:19Z) - Compositional Convolutional Neural Networks: A Deep Architecture with
Innate Robustness to Partial Occlusion [18.276428975330813]
近年の研究では、ディープ畳み込みニューラルネットワーク(DCNN)は部分閉塞下では十分に一般化していないことが示されている。
部分閉塞物体の分類における構成モデルの成功に触発されて,我々は合成モデルとDCNNを統合された深部モデルに統合することを提案する。
人工隠蔽画像の分類実験と,MS-COCOデータセットから部分的に隠蔽された物体の実画像の分類実験を行った。
提案手法は, 学習中に隠蔽対象に露出していない場合でも, 部分的に隠蔽対象を分類し, 標準的なDCNNよりも優れていた。
論文 参考訳(メタデータ) (2020-03-10T01:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。