論文の概要: Investigating the Robustness and Properties of Detection Transformers
(DETR) Toward Difficult Images
- arxiv url: http://arxiv.org/abs/2310.08772v1
- Date: Thu, 12 Oct 2023 23:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 15:02:08.017497
- Title: Investigating the Robustness and Properties of Detection Transformers
(DETR) Toward Difficult Images
- Title(参考訳): 難読画像に向けた検出変換器(DETR)のロバスト性と特性の検討
- Authors: Zhao Ning Zou, Yuhang Zhang, Robert Wijaya
- Abstract要約: トランスフォーマーベースのオブジェクト検出器(DETR)は、マシンビジョンタスク間で大きな性能を示している。
対処すべき重要な問題は、このモデルアーキテクチャがどのように異なるイメージニュアンスを扱うことができるかである。
本研究では,DeTRの性能を異なる実験で測定し,ネットワークのベンチマークを行った。
- 参考スコア(独自算出の注目度): 1.5727605363545245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based object detectors (DETR) have shown significant performance
across machine vision tasks, ultimately in object detection. This detector is
based on a self-attention mechanism along with the transformer encoder-decoder
architecture to capture the global context in the image. The critical issue to
be addressed is how this model architecture can handle different image
nuisances, such as occlusion and adversarial perturbations. We studied this
issue by measuring the performance of DETR with different experiments and
benchmarking the network with convolutional neural network (CNN) based
detectors like YOLO and Faster-RCNN. We found that DETR performs well when it
comes to resistance to interference from information loss in occlusion images.
Despite that, we found that the adversarial stickers put on the image require
the network to produce a new unnecessary set of keys, queries, and values,
which in most cases, results in a misdirection of the network. DETR also
performed poorer than YOLOv5 in the image corruption benchmark. Furthermore, we
found that DETR depends heavily on the main query when making a prediction,
which leads to imbalanced contributions between queries since the main query
receives most of the gradient flow.
- Abstract(参考訳): トランスフォーマーベースのオブジェクト検出器(DETR)は、最終的にオブジェクト検出において、マシンビジョンタスク間で大きなパフォーマンスを示している。
この検出器は、画像のグローバルコンテキストをキャプチャするトランスフォーマーエンコーダデコーダアーキテクチャとともに、自己アテンション機構に基づいている。
対処すべき重要な問題は、このモデルアーキテクチャが、オクルージョンや逆境の摂動など、異なるイメージニュアンスをどう扱えるかである。
そこで我々は,detrの性能を異なる実験で測定し,畳み込みニューラルネットワーク(cnn)ベースの検出器であるyoloやfaster-rcnnを用いてネットワークのベンチマークを行った。
閉塞画像における情報損失に対する耐性については,DETRが良好であることがわかった。
それにもかかわらず、画像上に貼られた敵のステッカーは、新しい不要なキー、クエリ、値のセットを生成する必要があることがわかり、ほとんどの場合、ネットワークの誤った方向が導かれる。
DETRは画像劣化ベンチマークでYOLOv5よりも低かった。
さらに,DeTRは予測を行う際の主問合せに大きく依存しており,主問合せが勾配フローの大部分を受信しているため,クエリ間の不均衡なコントリビューションが発生することがわかった。
関連論文リスト
- Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Bridging the Performance Gap between DETR and R-CNN for Graphical Object
Detection in Document Images [11.648151981111436]
本稿では,DTRとR-CNNのパフォーマンスギャップを図形オブジェクト検出のために橋渡しする重要なステップを踏む。
異なる方法でオブジェクトクエリを変更し、ポイントを使用し、アンカーボックスを使用し、パフォーマンスを高めるためにアンカーに正と負のノイズを追加します。
我々は、PubTables、TableBank、NTable、PubLaynetの4つのグラフデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-06-23T14:46:03Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Adversarially-Aware Robust Object Detector [85.10894272034135]
本稿では,ロバスト検出器 (RobustDet) を提案する。
本モデルは, クリーン画像の検出能力を維持しながら, 傾きを効果的に解き, 検出堅牢性を著しく向上させる。
論文 参考訳(メタデータ) (2022-07-13T13:59:59Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - Miti-DETR: Object Detection based on Transformers with Mitigatory
Self-Attention Convergence [17.854940064699985]
本稿では,緩和的自己認識機構を備えたトランスフォーマーアーキテクチャを提案する。
Miti-DETRは、各注意層の入力をそのレイヤの出力に予約し、「非注意」情報が注意伝播に関与するようにします。
Miti-DETRは、既存のDETRモデルに対する平均検出精度と収束速度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-12-26T03:23:59Z) - Understanding Robustness of Transformers for Image Classification [34.51672491103555]
Vision Transformer (ViT)は画像分類のためにResNetsを抜いた。
Transformerアーキテクチャの詳細は、これらのネットワークが堅牢かどうかを疑問に思っている。
ViTモデルは、少なくともResNetが広範囲の摂動に匹敵するほど堅牢であることがわかった。
論文 参考訳(メタデータ) (2021-03-26T16:47:55Z) - D-Unet: A Dual-encoder U-Net for Image Splicing Forgery Detection and
Localization [108.8592577019391]
画像スプライシング偽造検出は、画像指紋によって改ざんされた領域と非改ざんされた領域を区別するグローバルバイナリ分類タスクである。
画像スプライシングフォージェリ検出のためのデュアルエンコーダU-Net(D-Unet)という,固定されていないエンコーダと固定エンコーダを用いた新しいネットワークを提案する。
D-Unetと最先端技術の比較実験において、D-Unetは画像レベルおよび画素レベルの検出において他の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-03T10:54:02Z) - Rethinking Transformer-based Set Prediction for Object Detection [57.7208561353529]
実験の結果,提案手法は元のDETRよりもはるかに高速に収束するだけでなく,検出精度の点でDTRや他のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2020-11-21T21:59:42Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z) - Real-Time Detectors for Digital and Physical Adversarial Inputs to
Perception Systems [11.752184033538636]
ディープニューラルネットワーク(DNN)モデルは、敵のデジタルおよび物理的攻撃に対して脆弱であることが証明されている。
そこで本研究では,DNNに基づく認識システムに対する敵対的入力の両タイプに対して,新たな攻撃・データセット非依存・リアルタイム検出手法を提案する。
特に、提案した検出器は、逆画像が特定のラベル不変変換に敏感であるという観察に依存している。
論文 参考訳(メタデータ) (2020-02-23T00:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。