論文の概要: Effects of Scale on Language Model Robustness
- arxiv url: http://arxiv.org/abs/2407.18213v3
- Date: Thu, 24 Oct 2024 04:40:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:01:09.567220
- Title: Effects of Scale on Language Model Robustness
- Title(参考訳): スケールが言語モデルロバスト性に及ぼす影響
- Authors: Nikolaus Howe, Ian McKenzie, Oskar Hollinsworth, Michał Zajac, Tom Tseng, Aaron Tucker, Pierre-Luc Bacon, Adam Gleave,
- Abstract要約: 逆向きに訓練された大規模モデルは、より小さなモデルと比較して、訓練中に見えないような攻撃に対して、より速く、より良く一般化できることが示される。
また、計算量の増加による悪用/防御のバランスを分析し、ある設定で同等性を見つけ、他の設定で悪用する利点を見つけます。
- 参考スコア(独自算出の注目度): 7.725206196110384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models exhibit scaling laws, whereby increasing model and dataset size yields predictable decreases in negative log likelihood, unlocking a dazzling array of capabilities. This phenomenon spurs many companies to train ever larger models in pursuit of ever improved performance. Yet, these models are vulnerable to adversarial inputs such as ``jailbreaks'' and prompt injections that induce models to perform undesired behaviors, posing a growing risk as models become more capable. Prior work indicates that computer vision models become more robust with model and data scaling, raising the question: does language model robustness also improve with scale? We study this question empirically in the classification setting, finding that without explicit defense training, larger models tend to be modestly more robust on most tasks, though the effect is not reliable. Even with the advantage conferred by scale, undefended models remain easy to attack in absolute terms, and we thus turn our attention to explicitly training models for adversarial robustness, which we show to be a much more compute-efficient defense than scaling model size alone. In this setting, we also observe that adversarially trained larger models generalize faster and better to modified attacks not seen during training when compared with smaller models. Finally, we analyze the offense/defense balance of increasing compute, finding parity in some settings and an advantage for offense in others, suggesting that adversarial training alone is not sufficient to solve robustness, even at greater model scales.
- Abstract(参考訳): 言語モデルはスケーリングの法則を示しており、モデルとデータセットのサイズが増加すると、負のログ可能性の予測可能な減少が生まれ、めちゃくちゃな機能列がアンロックされる。
この現象は、多くの企業がより大規模なモデルを訓練し、パフォーマンスの向上を追求するきっかけとなった。
しかし、これらのモデルは '`jailbreaks'' のような敵の入力に対して脆弱であり、望ましくない振る舞いをモデルに誘導するインジェクションを誘導し、モデルがより有能になるにつれてリスクが増大する。
以前の研究は、コンピュータビジョンモデルがモデルとデータのスケーリングによってより堅牢になることを示している。
本研究は, 明示的な防御訓練がなければ, 多くのタスクにおいて, より大きなモデルの方がわずかに頑健である傾向にあるが, 信頼性は低い。
スケールによって与えられる優位性にもかかわらず、無防備なモデルは絶対的に攻撃しやすく、従って、敵の強靭性に対する明示的なトレーニングモデルに注意を向ける。
この設定では、逆向きに訓練されたより大きなモデルがより高速に一般化され、より小さなモデルと比較した場合、トレーニング中に見えない修正攻撃がより良くなることも観察する。
最後に,計算量の増加による悪用/防御バランスを分析し,ある設定で同等性を見つけ,他の設定で悪用する利点を見出した結果,より大規模なモデルスケールでも,敵の訓練だけでは堅牢性を解決するには不十分であることが示唆された。
関連論文リスト
- Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Lagrangian Objective Function Leads to Improved Unforeseen Attack
Generalization in Adversarial Training [0.0]
対人訓練(AT)は、訓練中に使用される攻撃に対して堅牢なモデルに到達するのに有効であることが示されている。
我々は、上記の問題を緩和する簡易なAT修正を提案する。
我々は,攻撃の一般化を意図した他の攻撃手法よりも,攻撃速度が速いことを示す。
論文 参考訳(メタデータ) (2021-03-29T07:23:46Z) - "What's in the box?!": Deflecting Adversarial Attacks by Randomly
Deploying Adversarially-Disjoint Models [71.91835408379602]
敵の例は長い間、機械学習モデルに対する真の脅威と考えられてきた。
我々は、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、配置ベースの防衛パラダイムを提案する。
論文 参考訳(メタデータ) (2021-02-09T20:07:13Z) - Adversarial Learning with Cost-Sensitive Classes [7.6596177815175475]
いくつかの特殊クラスのパフォーマンスを向上させるか、特に敵の学習における攻撃からそれらを保護する必要がある。
本論文では,コストに敏感な分類と対比学習を組み合わせて,保護クラスと非保護クラスを区別できるモデルを訓練するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-29T03:15:40Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer
Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。
また,移動学習モデルに対するブラックボックス攻撃手法を提案する。
ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文 参考訳(メタデータ) (2020-08-25T15:04:32Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。