論文の概要: Adversarial Robustness of In-Context Learning in Transformers for Linear Regression
- arxiv url: http://arxiv.org/abs/2411.05189v1
- Date: Thu, 07 Nov 2024 21:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:45.604415
- Title: Adversarial Robustness of In-Context Learning in Transformers for Linear Regression
- Title(参考訳): 線形回帰用変圧器におけるインテクスト学習の逆ロバスト性
- Authors: Usman Anwar, Johannes Von Oswald, Louis Kirsch, David Krueger, Spencer Frei,
- Abstract要約: 本研究は,線形回帰タスクの設定に焦点をあてたテキストハイザック攻撃に対するトランスフォーマにおける文脈内学習の脆弱性について検討する。
まず,一層線形変圧器が非破壊的であり,任意の予測を出力できることを示す。
次に, 逆行訓練は, ファインタニング時にのみ適用しても, ハイジャック攻撃に対するトランスフォーマーの堅牢性を高めることを実証する。
- 参考スコア(独自算出の注目度): 23.737606860443705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have demonstrated remarkable in-context learning capabilities across various domains, including statistical learning tasks. While previous work has shown that transformers can implement common learning algorithms, the adversarial robustness of these learned algorithms remains unexplored. This work investigates the vulnerability of in-context learning in transformers to \textit{hijacking attacks} focusing on the setting of linear regression tasks. Hijacking attacks are prompt-manipulation attacks in which the adversary's goal is to manipulate the prompt to force the transformer to generate a specific output. We first prove that single-layer linear transformers, known to implement gradient descent in-context, are non-robust and can be manipulated to output arbitrary predictions by perturbing a single example in the in-context training set. While our experiments show these attacks succeed on linear transformers, we find they do not transfer to more complex transformers with GPT-2 architectures. Nonetheless, we show that these transformers can be hijacked using gradient-based adversarial attacks. We then demonstrate that adversarial training enhances transformers' robustness against hijacking attacks, even when just applied during finetuning. Additionally, we find that in some settings, adversarial training against a weaker attack model can lead to robustness to a stronger attack model. Lastly, we investigate the transferability of hijacking attacks across transformers of varying scales and initialization seeds, as well as between transformers and ordinary least squares (OLS). We find that while attacks transfer effectively between small-scale transformers, they show poor transferability in other scenarios (small-to-large scale, large-to-large scale, and between transformers and OLS).
- Abstract(参考訳): トランスフォーマーは、統計的学習タスクを含む、様々な領域にわたる顕著なコンテキスト内学習能力を示してきた。
これまでの研究では、トランスフォーマーが共通の学習アルゴリズムを実装できることが示されていたが、これらの学習アルゴリズムの逆方向の堅牢性は未解明のままである。
本研究は,線形回帰タスクの設定に焦点をあてて,変換器から‘textit{hijacking attack’へのコンテキスト内学習の脆弱性について検討する。
ハイジャック攻撃(英: Hijacking attack)とは、相手のゴールがプロンプトを操作してトランスフォーマーに特定の出力を強制するプロンプトである。
まず,一層線形変圧器が非破壊的であり,一層線形変圧器を用いて任意の予測を出力できることを示す。
実験の結果,これらの攻撃は線形変圧器で成功することが示されたが,GPT-2アーキテクチャの複雑な変圧器には適用されないことがわかった。
しかし,これらの変圧器は,勾配に基づく対向攻撃によってハイジャック可能であることを示す。
次に, 逆行訓練は, ファインタニング時にのみ適用しても, ハイジャック攻撃に対するトランスフォーマーの堅牢性を高めることを実証する。
さらに、いくつかの設定では、より弱い攻撃モデルに対する敵の訓練は、より強力な攻撃モデルに堅牢性をもたらす可能性がある。
最後に,様々なスケールの変圧器と初期化種子,および変圧器と通常最小方形(OLS)間のハイジャック攻撃の伝達性について検討した。
攻撃は小型変圧器間で効果的に伝達されるが、他のシナリオ(小型・大規模・大規模・大規模・変圧器・OLS間)では伝達性が低いことが判明した。
関連論文リスト
- Transformer Learns Optimal Variable Selection in Group-Sparse Classification [14.760685658938787]
群疎性」を持つ古典的統計モデルを学ぶためにトランスフォーマーをどのように訓練するかのケーススタディを提示する。
理論的には、勾配降下により訓練された一層変圧器は、注意機構を正確に利用して変数を選択することができる。
また, 予測精度を向上させるために, サンプル数に制限のある1層変圧器を新しい下流タスクに適用できることを実証した。
論文 参考訳(メタデータ) (2025-04-11T15:39:44Z) - Learning Spectral Methods by Transformers [18.869174453242383]
多層トランスフォーマーは、十分な数の事前学習インスタンスを与えられた場合、アルゴリズム自体を学習可能であることを示す。
この学習パラダイムは、コンテキスト内学習設定とは異なるものであり、人間の脳の学習手順と似ている。
論文 参考訳(メタデータ) (2025-01-02T15:53:25Z) - One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-03T08:07:03Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - The Efficacy of Transformer-based Adversarial Attacks in Security
Domains [0.7156877824959499]
システムディフェンダーの対向サンプルに対する変換器のロバスト性およびシステムアタッカーに対する対向強度を評価する。
我々の研究は、セキュリティ領域におけるモデルの攻撃と防御のためにトランスフォーマーアーキテクチャを研究することの重要性を強調している。
論文 参考訳(メタデータ) (2023-10-17T21:45:23Z) - Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining [25.669038513039357]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。
ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文 参考訳(メタデータ) (2023-10-12T17:55:02Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - DBIA: Data-free Backdoor Injection Attack against Transformer Networks [6.969019759456717]
CV指向トランスネットワークに対するデータフリーバックドア攻撃であるDBIAを提案する。
弊社のアプローチでは、バックドアを高い成功率で埋め込むことができ、被害者のトランスフォーマーの性能への影響も低い。
論文 参考訳(メタデータ) (2021-11-22T08:13:51Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。