論文の概要: On the unreasonable vulnerability of transformers for image restoration
-- and an easy fix
- arxiv url: http://arxiv.org/abs/2307.13856v1
- Date: Tue, 25 Jul 2023 23:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 14:06:12.580960
- Title: On the unreasonable vulnerability of transformers for image restoration
-- and an easy fix
- Title(参考訳): 画像復元のためのトランスフォーマーの不合理な脆弱性と簡単な修正について
- Authors: Shashank Agnihotri, Kanchana Vaishnavi Gandikota, Julia Grabinski,
Paramanand Chandramouli, Margret Keuper
- Abstract要約: 画像修復にViTsの対向性の改善が有効か検討した。
我々は最近提案されたRestormerモデルとNAFNetと"Baseline network"について検討する。
実験は、GoProデータセットの実際の画像を用いて行われ、画像の劣化を観察する。
- 参考スコア(独自算出の注目度): 16.927916090724363
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following their success in visual recognition tasks, Vision
Transformers(ViTs) are being increasingly employed for image restoration. As a
few recent works claim that ViTs for image classification also have better
robustness properties, we investigate whether the improved adversarial
robustness of ViTs extends to image restoration. We consider the recently
proposed Restormer model, as well as NAFNet and the "Baseline network" which
are both simplified versions of a Restormer. We use Projected Gradient Descent
(PGD) and CosPGD, a recently proposed adversarial attack tailored to pixel-wise
prediction tasks for our robustness evaluation. Our experiments are performed
on real-world images from the GoPro dataset for image deblurring. Our analysis
indicates that contrary to as advocated by ViTs in image classification works,
these models are highly susceptible to adversarial attacks. We attempt to
improve their robustness through adversarial training. While this yields a
significant increase in robustness for Restormer, results on other networks are
less promising. Interestingly, the design choices in NAFNet and Baselines,
which were based on iid performance, and not on robust generalization, seem to
be at odds with the model robustness. Thus, we investigate this further and
find a fix.
- Abstract(参考訳): 視覚認識タスクの成功に続いて、視覚変換器(ViT)は画像復元にますます利用されている。
画像分類のためのViTsは、より優れたロバスト性を持つと主張する最近の研究で、改良されたViTsの対角ロバスト性が画像復元に有効かどうかを考察する。
我々は最近提案されたRestormerモデルとNAFNetとRestormerの簡易版である"Baseline network"を検討する。
我々は,最近提案された,ピクセル単位の予測タスクに適した逆攻撃であるprojected gradient descent (pgd) と cospgd を用いてロバスト性評価を行った。
実験は,goproデータセットの実際の画像を用いて画像デブラリングを行う。
画像分類作業におけるViTsの主張とは裏腹に,これらのモデルは非常に敵対的な攻撃を受けやすいことを示す。
私たちは敵の訓練を通じて彼らの堅牢性を向上しようと試みる。
これはRestormerのロバスト性を大幅に向上させるが、他のネットワークでの結果は期待できない。
興味深いことに、nafnetとベースラインの設計上の選択は、ロバストな一般化ではなく、iidパフォーマンスに基づいており、モデルのロバスト性とは相反しているようだ。
そこで、この問題をさらに調査し、修正を見いだす。
関連論文リスト
- Towards Robust Image Stitching: An Adaptive Resistance Learning against
Compatible Attacks [66.98297584796391]
画像縫合は、様々な視点から捉えた画像をシームレスに単一の視野画像に統合する。
一対の撮像画像が与えられたとき、人間の視覚システムに気づかない微妙な摂動と歪みは、対応の一致を攻撃しがちである。
本稿では,敵対的攻撃に対する画像縫合の堅牢性向上に向けた最初の試みについて述べる。
論文 参考訳(メタデータ) (2024-02-25T02:36:33Z) - Image Reconstruction using Enhanced Vision Transformer [0.08594140167290097]
画像のデノイング,デブロアリング,インペイントといったタスクに使用できる新しい画像再構成フレームワークを提案する。
このプロジェクトで提案されるモデルは、2次元画像を入力として取り込んで埋め込みを出力するビジョントランスフォーマー(ViT)に基づいている。
モデル再構築機能を改善するために,フレームワークに4つの最適化手法を組み込んだ。
論文 参考訳(メタデータ) (2023-07-11T02:14:18Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Revisiting Adversarial Training for ImageNet: Architectures, Training
and Generalization across Threat Models [52.86163536826919]
我々は、ViTsとConvNeXtsを比較したImageNetの敵対的トレーニングを再考する。
修正されたConvNeXt, ConvNeXt + ConvStemは、モデルパラメータの異なる範囲にまたがる最も堅牢な一般化をもたらす。
我々の ViT + ConvStem は、目に見えない脅威モデルに最高の一般化をもたらす。
論文 参考訳(メタデータ) (2023-03-03T11:53:01Z) - Adversarially-Aware Robust Object Detector [85.10894272034135]
本稿では,ロバスト検出器 (RobustDet) を提案する。
本モデルは, クリーン画像の検出能力を維持しながら, 傾きを効果的に解き, 検出堅牢性を著しく向上させる。
論文 参考訳(メタデータ) (2022-07-13T13:59:59Z) - The Principle of Diversity: Training Stronger Vision Transformers Calls
for Reducing All Levels of Redundancy [111.49944789602884]
本稿では,パッチ埋め込み,アテンションマップ,ウェイトスペースという3つのレベルにおいて,冗長性のユビキタスな存在を体系的に研究する。
各レベルにおける表現の多様性とカバレッジを促進するための対応正規化器を提案する。
論文 参考訳(メタデータ) (2022-03-12T04:48:12Z) - Can't Fool Me: Adversarially Robust Transformer for Video Understanding [8.082788827336337]
ビデオ理解タスクでは、逆向きに堅牢なモデルを開発することは、まだ探索されていない。
まず、画像ベースで逆向きに頑健なモデルの単純な拡張により、最悪の場合のパフォーマンスがわずかに向上することを示す。
大規模ビデオデータセットのYouTube-8Mを用いて、最終モデルは非競合性能に近い結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-26T18:30:21Z) - Understanding and Improving Robustness of Vision Transformers through
Patch-based Negative Augmentation [29.08732248577141]
本稿では,視覚変換器 (ViT) のレンズによる堅牢性について検討する。
変換が元のセマンティクスを大きく損なう場合でも、ViTはパッチベースの変換に驚くほど敏感であることがわかった。
パッチベースの負の増大は、広範囲のImageNetベースのロバストネスベンチマークにおいて、ViTのロバストネスを一貫して改善することを示す。
論文 参考訳(メタデータ) (2021-10-15T04:53:18Z) - Understanding Robustness of Transformers for Image Classification [34.51672491103555]
Vision Transformer (ViT)は画像分類のためにResNetsを抜いた。
Transformerアーキテクチャの詳細は、これらのネットワークが堅牢かどうかを疑問に思っている。
ViTモデルは、少なくともResNetが広範囲の摂動に匹敵するほど堅牢であることがわかった。
論文 参考訳(メタデータ) (2021-03-26T16:47:55Z) - Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。
我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文 参考訳(メタデータ) (2020-09-05T06:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。