論文の概要: Approximate Nullspace Augmented Finetuning for Robust Vision Transformers
- arxiv url: http://arxiv.org/abs/2403.10476v1
- Date: Fri, 15 Mar 2024 17:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 16:11:26.552973
- Title: Approximate Nullspace Augmented Finetuning for Robust Vision Transformers
- Title(参考訳): ロバスト・ビジョン・トランスのための近似ヌルスペース強化ファインタニング
- Authors: Haoyang Liu, Aditya Singh, Yijiang Li, Haohan Wang,
- Abstract要約: 線形代数からのヌル空間の概念にインスパイアされた視覚変換器の堅牢性を高める。
このモデルでは, 対角線や自然像の帰属に対する頑健さが示される。
- 参考スコア(独自算出の注目度): 12.49522180305377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enhancing the robustness of deep learning models, particularly in the realm of vision transformers (ViTs), is crucial for their real-world deployment. In this work, we provide a finetuning approach to enhance the robustness of vision transformers inspired by the concept of nullspace from linear algebra. Our investigation centers on whether a vision transformer can exhibit resilience to input variations akin to the nullspace property in linear mappings, implying that perturbations sampled from this nullspace do not influence the model's output when added to the input. Firstly, we show that for many pretrained ViTs, a non-trivial nullspace exists due to the presence of the patch embedding layer. Secondly, as nullspace is a concept associated with linear algebra, we demonstrate that it is possible to synthesize approximate nullspace elements for the non-linear blocks of ViTs employing an optimisation strategy. Finally, we propose a fine-tuning strategy for ViTs wherein we augment the training data with synthesized approximate nullspace noise. After finetuning, we find that the model demonstrates robustness to adversarial and natural image perbutations alike.
- Abstract(参考訳): ディープラーニングモデルの堅牢性、特にビジョントランスフォーマー(ViT)の領域における強化は、彼らの実世界展開に不可欠である。
本研究では、線形代数からのヌル空間の概念に触発された視覚変換器の堅牢性を高めるための微調整手法を提案する。
本研究は、線形写像におけるヌル空間特性に類似した入力変動に対して、視覚変換器がレジリエンスを示すことができるかどうかに着目し、このヌル空間からサンプリングされた摂動が入力に付加された場合のモデル出力に影響を与えないことを示す。
まず、事前訓練された多くのViTに対して、パッチ埋め込み層の存在により、非自明なヌル空間が存在することを示す。
第二に、ヌル空間は線型代数に付随する概念であるため、最適化戦略を用いて、ViT の非線形ブロックに対する近似ヌル空間要素を合成できることが示される。
最後に, 合成した近似ヌル空間雑音によるトレーニングデータを拡張したViTの微調整戦略を提案する。
微調整後,本モデルでは,逆方向や自然像の分布にも頑健性を示すことが判明した。
関連論文リスト
- NPAT Null-Space Projected Adversarial Training Towards Zero Deterioration [1.7250254048907498]
サンプル生成と勾配最適化を扱う2つの革新的なNull-space Projection based Adversarial Training(NPAT)アルゴリズムを提案する。
提案手法は,高精度モデルに近づきながら,敵対的トレーニング手法とシームレスに結合し,同等の堅牢性が得られることを示す。
論文 参考訳(メタデータ) (2024-09-18T07:18:22Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。
モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。
この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文 参考訳(メタデータ) (2024-02-25T05:04:51Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - Tangent Transformers for Composition, Privacy and Removal [58.280295030852194]
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
TAFT(Tangent Attention Fine-Tuning)は、線形変換器の微調整方法である。
論文 参考訳(メタデータ) (2023-07-16T18:31:25Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。