Fugu-MT 論文翻訳(概要): Effects of Scale on Language Model Robustness

論文の概要: Effects of Scale on Language Model Robustness

arxiv url: http://arxiv.org/abs/2407.18213v3
Date: Thu, 24 Oct 2024 04:40:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 15:01:09.567220
Title: Effects of Scale on Language Model Robustness
Title（参考訳）: スケールが言語モデルロバスト性に及ぼす影響
Authors: Nikolaus Howe, Ian McKenzie, Oskar Hollinsworth, Michał Zajac, Tom Tseng, Aaron Tucker, Pierre-Luc Bacon, Adam Gleave,
Abstract要約: 逆向きに訓練された大規模モデルは、より小さなモデルと比較して、訓練中に見えないような攻撃に対して、より速く、より良く一般化できることが示される。また、計算量の増加による悪用/防御のバランスを分析し、ある設定で同等性を見つけ、他の設定で悪用する利点を見つけます。
参考スコア（独自算出の注目度）: 7.725206196110384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models exhibit scaling laws, whereby increasing model and dataset size yields predictable decreases in negative log likelihood, unlocking a dazzling array of capabilities. This phenomenon spurs many companies to train ever larger models in pursuit of ever improved performance. Yet, these models are vulnerable to adversarial inputs such as ``jailbreaks'' and prompt injections that induce models to perform undesired behaviors, posing a growing risk as models become more capable. Prior work indicates that computer vision models become more robust with model and data scaling, raising the question: does language model robustness also improve with scale? We study this question empirically in the classification setting, finding that without explicit defense training, larger models tend to be modestly more robust on most tasks, though the effect is not reliable. Even with the advantage conferred by scale, undefended models remain easy to attack in absolute terms, and we thus turn our attention to explicitly training models for adversarial robustness, which we show to be a much more compute-efficient defense than scaling model size alone. In this setting, we also observe that adversarially trained larger models generalize faster and better to modified attacks not seen during training when compared with smaller models. Finally, we analyze the offense/defense balance of increasing compute, finding parity in some settings and an advantage for offense in others, suggesting that adversarial training alone is not sufficient to solve robustness, even at greater model scales.
Abstract（参考訳）: 言語モデルはスケーリングの法則を示しており、モデルとデータセットのサイズが増加すると、負のログ可能性の予測可能な減少が生まれ、めちゃくちゃな機能列がアンロックされる。この現象は、多くの企業がより大規模なモデルを訓練し、パフォーマンスの向上を追求するきっかけとなった。しかし、これらのモデルは '`jailbreaks'' のような敵の入力に対して脆弱であり、望ましくない振る舞いをモデルに誘導するインジェクションを誘導し、モデルがより有能になるにつれてリスクが増大する。以前の研究は、コンピュータビジョンモデルがモデルとデータのスケーリングによってより堅牢になることを示している。本研究は, 明示的な防御訓練がなければ, 多くのタスクにおいて, より大きなモデルの方がわずかに頑健である傾向にあるが, 信頼性は低い。スケールによって与えられる優位性にもかかわらず、無防備なモデルは絶対的に攻撃しやすく、従って、敵の強靭性に対する明示的なトレーニングモデルに注意を向ける。この設定では、逆向きに訓練されたより大きなモデルがより高速に一般化され、より小さなモデルと比較した場合、トレーニング中に見えない修正攻撃がより良くなることも観察する。最後に,計算量の増加による悪用/防御バランスを分析し,ある設定で同等性を見つけ,他の設定で悪用する利点を見出した結果,より大規模なモデルスケールでも,敵の訓練だけでは堅牢性を解決するには不十分であることが示唆された。

関連論文リスト

Improving Large Language Model Safety with Contrastive Representation Learning [92.79965952162298]
大規模言語モデル(LLM)は、社会に深い影響を与える強力なツールである。多様な制御されていない入力に対する応答を生成する能力は、敵の攻撃に対して脆弱である。対照的な表現学習問題としてモデルディフェンスを定式化するディフェンスフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-13T16:42:09Z)
Sustainable Self-evolution Adversarial Training [51.25767996364584]
対戦型防衛モデルのための持続的自己進化支援訓練(SSEAT)フレームワークを提案する。本研究は,様々な種類の対角的事例から学習を実現するために,連続的な対向防衛パイプラインを導入する。また,より多様で重要な再学習データを選択するために,逆データ再生モジュールを提案する。
論文参考訳（メタデータ） (2024-12-03T08:41:11Z)
Scaling Laws for Black box Adversarial Attacks [37.744814957775965]
敵の例では、クロスモデル転送可能性を示し、ブラックボックスモデルを攻撃することができる。モデルアンサンブルは、複数のサロゲートモデルを同時に攻撃することで、転送可能性を改善する効果的な戦略である。スケールされた攻撃はセマンティクスにおいてより良い解釈可能性をもたらし、モデルの共通の特徴がキャプチャーされることを示す。
論文参考訳（メタデータ） (2024-11-25T08:14:37Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
Strong Model Collapse [16.071600606637908]
本稿では,モデル崩壊現象の強い形態が存在することを示す。以上の結果から,最小の合成データであっても,モデル崩壊につながる可能性が示唆された。大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデル崩壊を悪化させるか緩和させるかを検討する。
論文参考訳（メタデータ） (2024-10-07T08:54:23Z)
Scalable Ensembling For Mitigating Reward Overoptimisation [24.58937616758007]
ヒューマンフィードバックからの強化学習は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。ポリシーが学習したプロキシ"報酬モデルに過度に適合する傾向にあるため、これらのモデルの整合性は依然として急進的な課題である。
論文参考訳（メタデータ） (2024-06-03T05:46:53Z)
Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文参考訳（メタデータ） (2024-05-17T17:49:44Z)
Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game [28.33029508522531]
悪意のある攻撃者は大規模なモデルを誘導して脱獄させ、違法なプライバシー侵害情報を含む情報を生成する。大規模なモデルは、安全アライメントのような技術を使って悪意ある攻撃者の攻撃に対処する。本研究では,攻撃者に対して安全に応答し,防御意図を隠蔽する,弱い防御機構を実現するためのマルチエージェント攻撃ゲーム手法を提案する。
論文参考訳（メタデータ） (2024-04-03T07:43:11Z)
Isolation and Induction: Training Robust Deep Neural Networks against Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文参考訳（メタデータ） (2023-08-02T05:54:01Z)
Interpretable Computer Vision Models through Adversarial Training: Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文参考訳（メタデータ） (2023-07-04T13:51:55Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
Membership-Doctor: Comprehensive Assessment of Membership Inference Against Machine Learning Models [11.842337448801066]
本稿では,様々なメンバーシップ推論攻撃と防衛の大規模測定を行う。脅威モデル(例えば、同一構造や、シャドーモデルとターゲットモデルとの同一分布)のいくつかの仮定は不要である。また、実験室のデータセットではなく、インターネットから収集された実世界のデータに対する攻撃を最初に実施しました。
論文参考訳（メタデータ） (2022-08-22T17:00:53Z)
Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文参考訳（メタデータ） (2022-02-15T18:53:14Z)
Lagrangian Objective Function Leads to Improved Unforeseen Attack Generalization in Adversarial Training [0.0]
対人訓練(AT)は、訓練中に使用される攻撃に対して堅牢なモデルに到達するのに有効であることが示されている。我々は、上記の問題を緩和する簡易なAT修正を提案する。我々は,攻撃の一般化を意図した他の攻撃手法よりも,攻撃速度が速いことを示す。
論文参考訳（メタデータ） (2021-03-29T07:23:46Z)
"What's in the box?!": Deflecting Adversarial Attacks by Randomly Deploying Adversarially-Disjoint Models [71.91835408379602]
敵の例は長い間、機械学習モデルに対する真の脅威と考えられてきた。我々は、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、配置ベースの防衛パラダイムを提案する。
論文参考訳（メタデータ） (2021-02-09T20:07:13Z)
Adversarial Learning with Cost-Sensitive Classes [7.6596177815175475]
いくつかの特殊クラスのパフォーマンスを向上させるか、特に敵の学習における攻撃からそれらを保護する必要がある。本論文では,コストに敏感な分類と対比学習を組み合わせて,保護クラスと非保護クラスを区別できるモデルを訓練するフレームワークを提案する。
論文参考訳（メタデータ） (2021-01-29T03:15:40Z)
Explain2Attack: Text Adversarial Attacks via Cross-Domain Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文参考訳（メタデータ） (2020-10-14T04:56:41Z)
Learning to Attack: Towards Textual Adversarial Attacking in Real-world Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文参考訳（メタデータ） (2020-09-19T09:12:24Z)
Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。また,移動学習モデルに対するブラックボックス攻撃手法を提案する。ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文参考訳（メタデータ） (2020-08-25T15:04:32Z)
Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。本研究では,新たな敵模倣攻撃を提案する。
論文参考訳（メタデータ） (2020-03-28T10:02:49Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。