論文の概要: Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image
Classification
- arxiv url: http://arxiv.org/abs/2208.02851v1
- Date: Thu, 4 Aug 2022 19:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:36:49.031502
- Title: Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image
Classification
- Title(参考訳): ロバストな医用画像分類のための自己組み立て型視覚変換器(SEViT)
- Authors: Faris Almalik, Mohammad Yaqub, Karthik Nandakumar
- Abstract要約: ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。
近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。
本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
- 参考スコア(独自算出の注目度): 4.843654097048771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViT) are competing to replace Convolutional Neural
Networks (CNN) for various computer vision tasks in medical imaging such as
classification and segmentation. While the vulnerability of CNNs to adversarial
attacks is a well-known problem, recent works have shown that ViTs are also
susceptible to such attacks and suffer significant performance degradation
under attack. The vulnerability of ViTs to carefully engineered adversarial
samples raises serious concerns about their safety in clinical settings. In
this paper, we propose a novel self-ensembling method to enhance the robustness
of ViT in the presence of adversarial attacks. The proposed Self-Ensembling
Vision Transformer (SEViT) leverages the fact that feature representations
learned by initial blocks of a ViT are relatively unaffected by adversarial
perturbations. Learning multiple classifiers based on these intermediate
feature representations and combining these predictions with that of the final
ViT classifier can provide robustness against adversarial attacks. Measuring
the consistency between the various predictions can also help detect
adversarial samples. Experiments on two modalities (chest X-ray and fundoscopy)
demonstrate the efficacy of SEViT architecture to defend against various
adversarial attacks in the gray-box (attacker has full knowledge of the target
model, but not the defense mechanism) setting. Code:
https://github.com/faresmalik/SEViT
- Abstract(参考訳): 視覚トランスフォーマー(vit)は、分類やセグメンテーションといった医療画像の様々なコンピュータビジョンタスクで畳み込みニューラルネットワーク(cnn)を置き換えるために競争している。
敵攻撃に対するCNNの脆弱性はよく知られた問題であるが、近年の研究では、ViTはそのような攻撃の影響を受けやすく、攻撃下での大幅なパフォーマンス低下を被っていることが示されている。
敵検体に対するViTsの脆弱性は、臨床環境での安全性に対する深刻な懸念を引き起こす。
本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新しい自己認識手法を提案する。
提案したSelf-Ensembling Vision Transformer (SEViT) は、ViTの初期ブロックによって学習された特徴表現が敵の摂動によって比較的影響を受けないという事実を活用する。
これらの中間的特徴表現に基づいて複数の分類器を学習し、これらの予測を最終 ViT 分類器と組み合わせることで、敵攻撃に対する堅牢性が得られる。
様々な予測の一貫性を測定することは、敵のサンプルを検出するのに役立つ。
2つのモード(胸部x線と眼底鏡)の実験では、セビットアーキテクチャがグレイボックスの様々な敵の攻撃(アタッカーは標的モデルを完全に知っているが、防御機構は持っていない)に対して防御する効果が示されている。
コード:https://github.com/faresmalik/SEViT
関連論文リスト
- SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Transferable Adversarial Attacks on Vision Transformers with Token
Gradient Regularization [32.908816911260615]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにうまく展開されているが、それでも敵のサンプルには弱い。
転送ベースの攻撃は、ローカルモデルを使用して敵のサンプルを生成し、ターゲットのブラックボックスモデルを攻撃するために直接転送する。
本稿では,既存のアプローチの欠点を克服するために,Token Gradient Regularization (TGR)法を提案する。
論文 参考訳(メタデータ) (2023-03-28T06:23:17Z) - Inference Time Evidences of Adversarial Attacks for Forensic on
Transformers [27.88746727644074]
視覚変換器(ViT)は、画像分類における最先端のパフォーマンスを達成することで、視覚タスクの一般的なパラダイムになりつつある。
本稿では,ネットワークの入力と出力および潜時特徴を用いて,推論時間中の敵攻撃を検出するための最初の試みを示す。
論文 参考訳(メタデータ) (2023-01-31T01:17:03Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - Patch-Fool: Are Vision Transformers Always Robust Against Adversarial
Perturbations? [21.32962679185015]
ビジョントランスフォーマー(ViT)は、ビジョンタスクにおける記録的なパフォーマンスのおかげで、ニューラルアーキテクチャ設計の新しい波を最近開始した。
最近の研究によると、ViTsは畳み込みニューラルネットワーク(CNN)と比較して敵の攻撃に対してより堅牢である。
本稿では,Patch-Foolと呼ばれる攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-16T04:45:59Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。