論文の概要: LipShiFT: A Certifiably Robust Shift-based Vision Transformer
- arxiv url: http://arxiv.org/abs/2503.14751v1
- Date: Tue, 18 Mar 2025 21:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:26:09.560257
- Title: LipShiFT: A Certifiably Robust Shift-based Vision Transformer
- Title(参考訳): LipShiFT: 能動的にロバストなシフトベースの視覚変換器
- Authors: Rohan Menon, Nicola Franco, Stephan Günnemann,
- Abstract要約: リプシッツに基づくマージントレーニングは、モデルの連続層における重みを制限しながら、強い正則化器として機能する。
一般的な画像分類における$l$ノルムを用いて、このモデルのリプシッツ定数の上限推定を行う。
- 参考スコア(独自算出の注目度): 46.7028906678548
- License:
- Abstract: Deriving tight Lipschitz bounds for transformer-based architectures presents a significant challenge. The large input sizes and high-dimensional attention modules typically prove to be crucial bottlenecks during the training process and leads to sub-optimal results. Our research highlights practical constraints of these methods in vision tasks. We find that Lipschitz-based margin training acts as a strong regularizer while restricting weights in successive layers of the model. Focusing on a Lipschitz continuous variant of the ShiftViT model, we address significant training challenges for transformer-based architectures under norm-constrained input setting. We provide an upper bound estimate for the Lipschitz constants of this model using the $l_2$ norm on common image classification datasets. Ultimately, we demonstrate that our method scales to larger models and advances the state-of-the-art in certified robustness for transformer-based architectures.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャに対するタイトなリプシッツ境界の導出は、大きな課題となる。
大きな入力サイズと高次元のアテンションモジュールは、トレーニングプロセスにおいて重要なボトルネックとなり、準最適結果をもたらす。
本研究は,視覚タスクにおけるこれらの手法の実践的制約を強調した。
リプシッツに基づくマージントレーニングは、モデルの連続層における重みを制限しながら、強力な正則化器として機能することを発見した。
ShiftViTモデルのリプシッツ連続変種に着目し,標準制約入力条件下でのトランスフォーマーアーキテクチャのトレーニング課題に対処する。
一般的な画像分類データセット上の$l_2$ノルムを用いて、このモデルのリプシッツ定数の上限値を求める。
最終的に、我々の手法はより大きなモデルにスケールし、トランスフォーマーベースのアーキテクチャの信頼性の高いロバスト性において最先端の技術を向上することを示した。
関連論文リスト
- Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Linearizing Large Language Models [26.94551511277412]
本稿では,既存の大規模事前学習型トランスフォーマーを,控えめな計算予算でリカレントニューラルネットワーク(RNN)にアップトレーニングする方法を提案する。
線形化手法は標準ベンチマーク上での競合性能につながるが,最大線形モデルにおいても,永続的な文脈内学習と長期コンテキストモデリングの欠点を同定する。
論文 参考訳(メタデータ) (2024-05-10T17:59:08Z) - Converting Transformers to Polynomial Form for Secure Inference Over
Homomorphic Encryption [45.00129952368691]
ホモモルフィック暗号化(HE)は、ディープラーニングにおける最も有望なアプローチの1つである。
変換器を用いたHE上でのセキュアな推論のデモンストレーションとして,第1回変換器を紹介する。
我々のモデルは従来の手法に匹敵する結果をもたらし、同様のスケールのトランスフォーマーで性能ギャップを埋め、最先端のアプリケーションでHEが実現可能であることを裏付ける。
論文 参考訳(メタデータ) (2023-11-15T00:23:58Z) - Client: Cross-variable Linear Integrated Enhanced Transformer for
Multivariate Long-Term Time Series Forecasting [4.004869317957185]
クライアント(Client)は,従来のトランスフォーマーベースモデルと線形モデルの両方に勝る高度なモデルである。
クライアントは、従来の線形モデルとTransformerベースのモデルとを分離した、非線形性とクロス変数の依存関係を組み込んでいる。
論文 参考訳(メタデータ) (2023-05-30T08:31:22Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。