論文の概要: Scaling Trends in Language Model Robustness
- arxiv url: http://arxiv.org/abs/2407.18213v4
- Date: Wed, 19 Feb 2025 22:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:26:16.633374
- Title: Scaling Trends in Language Model Robustness
- Title(参考訳): 言語モデルロバストネスのスケーリング動向
- Authors: Nikolaus Howe, Ian McKenzie, Oskar Hollinsworth, Michał Zajac, Tom Tseng, Aaron Tucker, Pierre-Luc Bacon, Adam Gleave,
- Abstract要約: 本研究では,3桁のパラメータ数にまたがる言語モデルのロバスト性について検討する。
他の介入がなければ、モデルのサイズが大きくなるだけでは、ロバスト性は向上しない。
逆行訓練では、より大きなモデルはより標本効率が高く、より小さなモデルよりも計算効率が低いことが分かる。
- 参考スコア(独自算出の注目度): 7.725206196110384
- License:
- Abstract: Language models exhibit scaling laws, whereby increasing model and dataset size predictably decrease negative log likelihood, unlocking a dazzling array of capabilities. At the same time, even the most capable systems are currently vulnerable to adversarial inputs such as jailbreaks and prompt injections, despite concerted efforts to make them robust. As compute becomes more accessible to both attackers and defenders, which side will benefit more from scale? We attempt to answer this question with a detailed study of robustness on language models spanning three orders of magnitude in parameter count. From the defender's perspective, we find that in the absence of other interventions, increasing model size alone does not consistently improve robustness. In adversarial training, we find that larger models are more sample-efficient and less compute-efficient than smaller models, and often better generalize their defense to new threat models. From the attacker's perspective, we find that increasing attack compute smoothly and reliably increases attack success rate against both finetuned and adversarially trained models. Finally, we show that across model sizes studied, doubling compute on adversarial training only forces an attacker to less than double attack compute to maintain the same attack success rate. However, adversarial training becomes more and more effective on larger models, suggesting that defenders could eventually have the advantage with increasing model size. These results underscore the value of adopting a scaling lens when discussing robustness of frontier models.
- Abstract(参考訳): 言語モデルはスケーリングの法則を示し、モデルとデータセットのサイズが大きくなると、ネガティブなログの可能性が低下する。
同時に、最も有能なシステムでさえ、現在ジェイルブレイクや即発注射のような敵の入力に対して脆弱である。
攻撃者とディフェンダーの両方がコンピューティングにアクセスしやすくなれば、どちらがスケールの恩恵を受けるのか?
本稿では,3桁のパラメータ数にまたがる言語モデルに対するロバスト性について,より詳細な研究を行った。
ディフェンダーの観点では、他の介入がなければ、モデルのサイズが大きくなるだけでは、ロバスト性は一貫して改善されない。
敵の訓練では、より大きなモデルはよりサンプル効率が高く、より小さなモデルよりも計算効率が低く、しばしば新しい脅威モデルへの防御をより良く一般化する。
攻撃者の視点からは、攻撃計算の増大は微調整モデルと逆訓練モデルの両方に対する攻撃成功率を円滑かつ確実に向上させることが分かる。
最後に, モデルサイズを比較検討した結果, 対人訓練における計算量が2倍になった場合, 攻撃者が同じ攻撃成功率を維持するためには, 攻撃者が2倍未満の攻撃計算を行なわざるを得ないことがわかった。
しかし、より大規模なモデルでは敵の訓練がより効果的になり、ディフェンダーが最終的にモデルのサイズを増やす利点を享受できる可能性が示唆された。
これらの結果は、フロンティアモデルの堅牢性について議論する際に、スケーリングレンズを採用することの価値を強調している。
関連論文リスト
- Isolation and Induction: Training Robust Deep Neural Networks against
Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。
本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。
モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文 参考訳(メタデータ) (2023-08-02T05:54:01Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Lagrangian Objective Function Leads to Improved Unforeseen Attack
Generalization in Adversarial Training [0.0]
対人訓練(AT)は、訓練中に使用される攻撃に対して堅牢なモデルに到達するのに有効であることが示されている。
我々は、上記の問題を緩和する簡易なAT修正を提案する。
我々は,攻撃の一般化を意図した他の攻撃手法よりも,攻撃速度が速いことを示す。
論文 参考訳(メタデータ) (2021-03-29T07:23:46Z) - "What's in the box?!": Deflecting Adversarial Attacks by Randomly
Deploying Adversarially-Disjoint Models [71.91835408379602]
敵の例は長い間、機械学習モデルに対する真の脅威と考えられてきた。
我々は、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、配置ベースの防衛パラダイムを提案する。
論文 参考訳(メタデータ) (2021-02-09T20:07:13Z) - Adversarial Learning with Cost-Sensitive Classes [7.6596177815175475]
いくつかの特殊クラスのパフォーマンスを向上させるか、特に敵の学習における攻撃からそれらを保護する必要がある。
本論文では,コストに敏感な分類と対比学習を組み合わせて,保護クラスと非保護クラスを区別できるモデルを訓練するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-29T03:15:40Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer
Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。
また,移動学習モデルに対するブラックボックス攻撃手法を提案する。
ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文 参考訳(メタデータ) (2020-08-25T15:04:32Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。