論文の概要: Understanding In-Context Learning of Linear Models in Transformers Through an Adversarial Lens
- arxiv url: http://arxiv.org/abs/2411.05189v2
- Date: Tue, 05 Aug 2025 21:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:07.597258
- Title: Understanding In-Context Learning of Linear Models in Transformers Through an Adversarial Lens
- Title(参考訳): 逆レンズを用いた変圧器の線形モデルの文脈学習
- Authors: Usman Anwar, Johannes Von Oswald, Louis Kirsch, David Krueger, Spencer Frei,
- Abstract要約: 本研究では, ハイジャック攻撃に対する変換器における文脈内学習の対角的堅牢性について検討する。
GPT-2アーキテクチャを持つ線形変圧器と変圧器の両方がこのようなハイジャック攻撃に対して脆弱であることを示す。
このような攻撃に対する敵の堅牢性は、敵の訓練によって著しく改善される。
- 参考スコア(独自算出の注目度): 23.737606860443705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we make two contributions towards understanding of in-context learning of linear models by transformers. First, we investigate the adversarial robustness of in-context learning in transformers to hijacking attacks -- a type of adversarial attacks in which the adversary's goal is to manipulate the prompt to force the transformer to generate a specific output. We show that both linear transformers and transformers with GPT-2 architectures are vulnerable to such hijacking attacks. However, adversarial robustness to such attacks can be significantly improved through adversarial training -- done either at the pretraining or finetuning stage -- and can generalize to stronger attack models. Our second main contribution is a comparative analysis of adversarial vulnerabilities across transformer models and other algorithms for learning linear models. This reveals two novel findings. First, adversarial attacks transfer poorly between larger transformer models trained from different seeds despite achieving similar in-distribution performance. This suggests that transformers of the same architecture trained according to the same recipe may implement different in-context learning algorithms for the same task. Second, we observe that attacks do not transfer well between classical learning algorithms for linear models (single-step gradient descent and ordinary least squares) and transformers. This suggests that there could be qualitative differences between the in-context learning algorithms that transformers implement and these traditional algorithms.
- Abstract(参考訳): 本研究では,変換器による線形モデルの文脈内学習の理解に2つの貢献をする。
まず,変圧器内学習とハイジャック攻撃の対人的堅牢性について検討し,その対人的攻撃とは,変圧器に特定の出力を強制的に生成させるプロンプトを操作することを目的としている。
GPT-2アーキテクチャを持つ線形変圧器と変圧器の両方がこのようなハイジャック攻撃に対して脆弱であることを示す。
しかし、このような攻撃に対する敵の堅牢性は、事前訓練または微調整の段階で行われる敵の訓練によって著しく向上し、より強力な攻撃モデルに一般化することができる。
2つ目の主な貢献は、線形モデルを学ぶためのトランスフォーマーモデルや他のアルゴリズム間の敵の脆弱性の比較分析である。
これは2つの新しい発見である。
第一に、異なる種から訓練された大きなトランスモデル間の敵攻撃は、同様の分配性能が得られたにもかかわらず、あまりうまく伝達しない。
これは、同じレシピに従ってトレーニングされた同じアーキテクチャのトランスフォーマーが、同じタスクに対して異なるコンテキスト内学習アルゴリズムを実装する可能性があることを示唆している。
第2に、線形モデルの古典的学習アルゴリズム(単段勾配降下法と通常最小二乗法)と変圧器の間で攻撃がうまく伝達されないことを観察する。
このことは、トランスフォーマーが実装するコンテキスト内学習アルゴリズムと従来のアルゴリズムの間に質的な違いがあることを示唆している。
関連論文リスト
- Transformer Learns Optimal Variable Selection in Group-Sparse Classification [14.760685658938787]
群疎性」を持つ古典的統計モデルを学ぶためにトランスフォーマーをどのように訓練するかのケーススタディを提示する。
理論的には、勾配降下により訓練された一層変圧器は、注意機構を正確に利用して変数を選択することができる。
また, 予測精度を向上させるために, サンプル数に制限のある1層変圧器を新しい下流タスクに適用できることを実証した。
論文 参考訳(メタデータ) (2025-04-11T15:39:44Z) - Learning Spectral Methods by Transformers [18.869174453242383]
多層トランスフォーマーは、十分な数の事前学習インスタンスを与えられた場合、アルゴリズム自体を学習可能であることを示す。
この学習パラダイムは、コンテキスト内学習設定とは異なるものであり、人間の脳の学習手順と似ている。
論文 参考訳(メタデータ) (2025-01-02T15:53:25Z) - One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-03T08:07:03Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - The Efficacy of Transformer-based Adversarial Attacks in Security
Domains [0.7156877824959499]
システムディフェンダーの対向サンプルに対する変換器のロバスト性およびシステムアタッカーに対する対向強度を評価する。
我々の研究は、セキュリティ領域におけるモデルの攻撃と防御のためにトランスフォーマーアーキテクチャを研究することの重要性を強調している。
論文 参考訳(メタデータ) (2023-10-17T21:45:23Z) - Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining [25.669038513039357]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。
ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文 参考訳(メタデータ) (2023-10-12T17:55:02Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers as Algorithms: Generalization and Implicit Model Selection
in In-context Learning [23.677503557659705]
In-context Learning (ICL) は、トランスフォーマーモデルが一連の例で動作し、オンザフライで推論を行うプロンプトの一種である。
我々は,このトランスモデルを学習アルゴリズムとして扱い,推論時別のターゲットアルゴリズムを実装するためのトレーニングを通じて専門化することができる。
変換器は適応学習アルゴリズムとして機能し、異なる仮説クラス間でモデル選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-17T18:31:12Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - DBIA: Data-free Backdoor Injection Attack against Transformer Networks [6.969019759456717]
CV指向トランスネットワークに対するデータフリーバックドア攻撃であるDBIAを提案する。
弊社のアプローチでは、バックドアを高い成功率で埋め込むことができ、被害者のトランスフォーマーの性能への影響も低い。
論文 参考訳(メタデータ) (2021-11-22T08:13:51Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。