論文の概要: Adversarially Pretrained Transformers may be Universally Robust In-Context Learners
- arxiv url: http://arxiv.org/abs/2505.14042v1
- Date: Tue, 20 May 2025 07:39:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.86666
- Title: Adversarially Pretrained Transformers may be Universally Robust In-Context Learners
- Title(参考訳): 適応的に事前学習されたトランスフォーマーは、普遍的にロバストなインテクスト学習者であるかもしれない
- Authors: Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki,
- Abstract要約: 対人訓練は最も効果的な対人防御の1つだが、高い計算コストがかかる。
本研究では,多種多様なタスクに対して逆さまに事前訓練されたトランスフォーマーが,堅牢な基礎モデルとして機能することを示す。
- 参考スコア(独自算出の注目度): 27.368408524000778
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Adversarial training is one of the most effective adversarial defenses, but it incurs a high computational cost. In this study, we show that transformers adversarially pretrained on diverse tasks can serve as robust foundation models and eliminate the need for adversarial training in downstream tasks. Specifically, we theoretically demonstrate that through in-context learning, a single adversarially pretrained transformer can robustly generalize to multiple unseen tasks without any additional training, i.e., without any parameter updates. This robustness stems from the model's focus on robust features and its resistance to attacks that exploit non-predictive features. Besides these positive findings, we also identify several limitations. Under certain conditions (though unrealistic), no universally robust single-layer transformers exist. Moreover, robust transformers exhibit an accuracy--robustness trade-off and require a large number of in-context demonstrations. The code is available at https://github.com/s-kumano/universally-robust-in-context-learner.
- Abstract(参考訳): 対人訓練は最も効果的な対人防御の1つであるが、計算コストが高い。
本研究では,多様なタスクに対して逆行的に事前訓練されたトランスフォーマーが,堅牢な基礎モデルとして機能し,下流タスクにおける逆行訓練の必要性を排除できることを示す。
具体的には、文脈内学習を通じて、一対の事前学習されたトランスフォーマーが、追加のトレーニング、すなわちパラメータの更新なしに、複数の未確認タスクに頑健に一般化できることを理論的に示す。
この堅牢性は、モデルが頑丈な特徴に焦点をあてていることと、予測できない特徴を利用する攻撃に対する抵抗に起因している。
これらの陽性所見に加えて,いくつかの限界も同定した。
ある条件下では(非現実的であるが)、普遍的に堅牢な単層変圧器は存在しない。
さらに、ロバストなトランスフォーマーは精度-ロバスト性トレードオフを示し、多数のインコンテキストデモを必要とする。
コードはhttps://github.com/s-kumano/Universally-robust-in-context-learnerで公開されている。
関連論文リスト
- One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - Adversarial Robustness of In-Context Learning in Transformers for Linear Regression [23.737606860443705]
本研究は,線形回帰タスクの設定に焦点をあてたテキストハイザック攻撃に対するトランスフォーマにおける文脈内学習の脆弱性について検討する。
まず,一層線形変圧器が非破壊的であり,任意の予測を出力できることを示す。
次に, 逆行訓練は, ファインタニング時にのみ適用しても, ハイジャック攻撃に対するトランスフォーマーの堅牢性を高めることを実証する。
論文 参考訳(メタデータ) (2024-11-07T21:25:58Z) - Rapid Plug-in Defenders [17.553905911482655]
本稿では,Rapid Plug-in Defender(RaPiD)問題に焦点をあてる。
本稿では,RaPiDのためのCeTaD (Consideing Pre-trained Transformers as Defenders) という新しい手法を提案する。
評価の中心は,CeTaDの有効性,伝達性,および一発対向例を含むシナリオにおける異なるコンポーネントの影響を評価することである。
論文 参考訳(メタデータ) (2023-05-27T06:00:51Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。