論文の概要: Certified Patch Robustness via Smoothed Vision Transformers
- arxiv url: http://arxiv.org/abs/2110.07719v1
- Date: Mon, 11 Oct 2021 17:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-24 03:45:44.687764
- Title: Certified Patch Robustness via Smoothed Vision Transformers
- Title(参考訳): Smoothed Vision Transformerによる認証パッチロバスト性
- Authors: Hadi Salman, Saachi Jain, Eric Wong, Aleksander M\k{a}dry
- Abstract要約: 視覚変換器を用いることで、認証済みのパッチの堅牢性が大幅に向上することを示す。
これらの改善は、視覚変換器が主にマスクされた画像を優雅に扱う能力に起因している。
- 参考スコア(独自算出の注目度): 77.30663719482924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Certified patch defenses can guarantee robustness of an image classifier to
arbitrary changes within a bounded contiguous region. But, currently, this
robustness comes at a cost of degraded standard accuracies and slower inference
times. We demonstrate how using vision transformers enables significantly
better certified patch robustness that is also more computationally efficient
and does not incur a substantial drop in standard accuracy. These improvements
stem from the inherent ability of the vision transformer to gracefully handle
largely masked images. Our code is available at
https://github.com/MadryLab/smoothed-vit.
- Abstract(参考訳): 認証されたパッチディフェンスは、境界のある連続領域内の任意の変更に対する画像分類器のロバスト性を保証することができる。
しかし、現在のこの堅牢性は、標準の精度が低下し、推論時間が遅くなるというコストが伴う。
視覚トランスフォーマーを用いることで、より計算効率が高く、標準精度が大幅に低下しない、認定パッチの堅牢性が大幅に向上することを示す。
これらの改善は、視覚変換器が主にマスクされた画像を優雅に扱う能力に起因している。
私たちのコードはhttps://github.com/madrylab/smoothed-vitで利用可能です。
関連論文リスト
- Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - Efficient Attention-free Video Shift Transformers [56.87581500474093]
本稿では,効率的な映像認識の問題に取り組む。
ビデオトランスは、最近、効率(トップ1精度対FLOP)のスペクトルを支配している。
我々はビデオ領域における定式化を拡張してビデオアフィンシフト変換器を構築する。
論文 参考訳(メタデータ) (2022-08-23T17:48:29Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Towards Practical Certifiable Patch Defense with Vision Transformer [34.00374565048962]
視覚変換器(ViT)を非ランダム化平滑化(DS)の枠組みに導入する。
実世界における効率的な推論と展開のために,我々は,オリジナルViTのグローバルな自己アテンション構造を,孤立バンド単位の自己アテンションに革新的に再構築する。
論文 参考訳(メタデータ) (2022-03-16T10:39:18Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - PatchCensor: Patch Robustness Certification for Transformers via
Exhaustive Testing [7.88628640954152]
Vision Transformer (ViT)は、他の古典的ニューラルネットワークと同様に非常に非線形であることが知られており、自然なパッチの摂動と逆パッチの摂動の両方によって容易に騙される。
この制限は、特に安全クリティカルなシナリオにおいて、実際の産業環境におけるViTの展開に脅威をもたらす可能性がある。
PatchCensorを提案する。このPatchCensorは、徹底的なテストを適用することで、ViTのパッチ堅牢性を証明することを目的としている。
論文 参考訳(メタデータ) (2021-11-19T23:45:23Z) - Understanding and Improving Robustness of Vision Transformers through
Patch-based Negative Augmentation [29.08732248577141]
本稿では,視覚変換器 (ViT) のレンズによる堅牢性について検討する。
変換が元のセマンティクスを大きく損なう場合でも、ViTはパッチベースの変換に驚くほど敏感であることがわかった。
パッチベースの負の増大は、広範囲のImageNetベースのロバストネスベンチマークにおいて、ViTのロバストネスを一貫して改善することを示す。
論文 参考訳(メタデータ) (2021-10-15T04:53:18Z) - Exploring and Improving Mobile Level Vision Transformers [81.7741384218121]
本稿では,移動体レベルでの視覚変換器の構造について検討し,劇的な性能低下を見出した。
本稿では,新しい不規則なパッチ埋め込みモジュールと適応パッチ融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-08-30T06:42:49Z) - Improve Vision Transformers Training by Suppressing Over-smoothing [28.171262066145612]
トランス構造をコンピュータビジョンのタスクに導入することで、従来の畳み込みネットワークよりも優れたスピード精度のトレードオフが得られます。
しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。
近年の研究では,視覚タスクの性能向上のために,畳み込み層を導入してトランスフォーマー構造を改良することを提案する。
論文 参考訳(メタデータ) (2021-04-26T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。