論文の概要: AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer
- arxiv url: http://arxiv.org/abs/2406.08298v1
- Date: Wed, 12 Jun 2024 14:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 16:26:24.113981
- Title: AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer
- Title(参考訳): AdaNCA: よりロバストな視覚変換器のアダプターとしての神経細胞性オートマタ
- Authors: Yitao Xu, Tong Zhang, Sabine Süsstrunk,
- Abstract要約: 視覚変換器用ニューラルセルラーオートマタ (NCA) を提案する。
AdaNCAは、ImageNet1Kベンチマークに対する敵攻撃による精度の10%以上の改善に貢献している。
- 参考スコア(独自算出の注目度): 27.921949273217468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have demonstrated remarkable performance in image classification tasks, particularly when equipped with local information via region attention or convolutions. While such architectures improve the feature aggregation from different granularities, they often fail to contribute to the robustness of the networks. Neural Cellular Automata (NCA) enables the modeling of global cell representations through local interactions, with its training strategies and architecture design conferring strong generalization ability and robustness against noisy inputs. In this paper, we propose Adaptor Neural Cellular Automata (AdaNCA) for Vision Transformer that uses NCA as plug-in-play adaptors between ViT layers, enhancing ViT's performance and robustness against adversarial samples as well as out-of-distribution inputs. To overcome the large computational overhead of standard NCAs, we propose Dynamic Interaction for more efficient interaction learning. Furthermore, we develop an algorithm for identifying the most effective insertion points for AdaNCA based on our analysis of AdaNCA placement and robustness improvement. With less than a 3% increase in parameters, AdaNCA contributes to more than 10% absolute improvement in accuracy under adversarial attacks on the ImageNet1K benchmark. Moreover, we demonstrate with extensive evaluations across 8 robustness benchmarks and 4 ViT architectures that AdaNCA, as a plug-in-play module, consistently improves the robustness of ViTs.
- Abstract(参考訳): 視覚変換器(ViT)は画像分類タスクにおいて、特に局所的な注意や畳み込みによる局所的な情報を備えた場合、顕著な性能を示した。
このようなアーキテクチャは機能集約を粒度によって改善するが、ネットワークの堅牢性に寄与しないことが多い。
ニューラルセルオートマタ(NCA)は、局所的な相互作用を通じてグローバルなセル表現のモデリングを可能にし、そのトレーニング戦略とアーキテクチャ設計は、ノイズの多い入力に対して強力な一般化能力と堅牢性をもたらす。
本稿では,視覚変換器用Adaptor Neural Cellular Automata (AdaNCA)を提案する。
標準的なNAAの計算オーバーヘッドを克服するために,より効率的な対話学習のための動的インタラクションを提案する。
さらに,AdaNCAの配置解析とロバスト性改善に基づいて,AdaNCAの最も効果的な挿入点を同定するアルゴリズムを開発した。
パラメータの3%未満の増加により、AdaNCAはImageNet1Kベンチマークの敵攻撃下での精度の10%以上の絶対的な改善に貢献している。
さらに,8つのロバスト性ベンチマークと4つのViTアーキテクチャに対して,プラグインモジュールであるAdaNCAが常にViTのロバスト性を改善することを実証した。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [59.193626019860226]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformersを紹介する。
我々はCAS-ViTが他の最先端のバックボーンと比較して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency [0.0]
iiANET(Inception Inspired Attention Network)は,複雑な画像の長距離依存性を捉えるために設計された,効率的なハイブリッドモデルである。
基本的なビルディングブロックであるiiABlockはグローバル2D-MHSA(Multi-Head Self-Attention)をレジスタ、MBConv2(MobileNetV2ベースの畳み込み)、拡張畳み込みを並列に統合する。
各iABlockの終端にECANET(Efficient Channel Attention Network)を連続的に統合し、チャネルワイドアテンションを校正し、モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-07-10T12:39:02Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - AFR-Net: Attention-Driven Fingerprint Recognition Network [47.87570819350573]
指紋認識を含む生体認証における視覚変換器(ViT)の使用に関する初期研究を改善する。
ネットワーク内の中間特徴マップから抽出した局所的な埋め込みを用いて,グローバルな埋め込みを低確かさで洗練する手法を提案する。
この戦略は、既存のディープラーニングネットワーク(アテンションベース、CNNベース、あるいはその両方を含む)のラッパーとして適用することで、パフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2022-11-25T05:10:39Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。