Fugu-MT 論文翻訳(概要): Scaling Trends in Language Model Robustness

論文の概要: Scaling Trends in Language Model Robustness

arxiv url: http://arxiv.org/abs/2407.18213v4
Date: Wed, 19 Feb 2025 22:32:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 15:38:29.399752
Title: Scaling Trends in Language Model Robustness
Title（参考訳）: 言語モデルロバストネスのスケーリング動向
Authors: Nikolaus Howe, Ian McKenzie, Oskar Hollinsworth, Michał Zajac, Tom Tseng, Aaron Tucker, Pierre-Luc Bacon, Adam Gleave,
Abstract要約: 本研究では,3桁のパラメータ数にまたがる言語モデルのロバスト性について検討する。他の介入がなければ、モデルのサイズが大きくなるだけでは、ロバスト性は向上しない。逆行訓練では、より大きなモデルはより標本効率が高く、より小さなモデルよりも計算効率が低いことが分かる。
参考スコア（独自算出の注目度）: 7.725206196110384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models exhibit scaling laws, whereby increasing model and dataset size predictably decrease negative log likelihood, unlocking a dazzling array of capabilities. At the same time, even the most capable systems are currently vulnerable to adversarial inputs such as jailbreaks and prompt injections, despite concerted efforts to make them robust. As compute becomes more accessible to both attackers and defenders, which side will benefit more from scale? We attempt to answer this question with a detailed study of robustness on language models spanning three orders of magnitude in parameter count. From the defender's perspective, we find that in the absence of other interventions, increasing model size alone does not consistently improve robustness. In adversarial training, we find that larger models are more sample-efficient and less compute-efficient than smaller models, and often better generalize their defense to new threat models. From the attacker's perspective, we find that increasing attack compute smoothly and reliably increases attack success rate against both finetuned and adversarially trained models. Finally, we show that across model sizes studied, doubling compute on adversarial training only forces an attacker to less than double attack compute to maintain the same attack success rate. However, adversarial training becomes more and more effective on larger models, suggesting that defenders could eventually have the advantage with increasing model size. These results underscore the value of adopting a scaling lens when discussing robustness of frontier models.
Abstract（参考訳）: 言語モデルはスケーリングの法則を示し、モデルとデータセットのサイズが大きくなると、ネガティブなログの可能性が低下する。同時に、最も有能なシステムでさえ、現在ジェイルブレイクや即発注射のような敵の入力に対して脆弱である。攻撃者とディフェンダーの両方がコンピューティングにアクセスしやすくなれば、どちらがスケールの恩恵を受けるのか? 本稿では,3桁のパラメータ数にまたがる言語モデルに対するロバスト性について,より詳細な研究を行った。ディフェンダーの観点では、他の介入がなければ、モデルのサイズが大きくなるだけでは、ロバスト性は一貫して改善されない。敵の訓練では、より大きなモデルはよりサンプル効率が高く、より小さなモデルよりも計算効率が低く、しばしば新しい脅威モデルへの防御をより良く一般化する。攻撃者の視点からは、攻撃計算の増大は微調整モデルと逆訓練モデルの両方に対する攻撃成功率を円滑かつ確実に向上させることが分かる。最後に, モデルサイズを比較検討した結果, 対人訓練における計算量が2倍になった場合, 攻撃者が同じ攻撃成功率を維持するためには, 攻撃者が2倍未満の攻撃計算を行なわざるを得ないことがわかった。しかし、より大規模なモデルでは敵の訓練がより効果的になり、ディフェンダーが最終的にモデルのサイズを増やす利点を享受できる可能性が示唆された。これらの結果は、フロンティアモデルの堅牢性について議論する際に、スケーリングレンズを採用することの価値を強調している。

関連論文リスト

Improving Large Language Model Safety with Contrastive Representation Learning [92.79965952162298]
大規模言語モデル(LLM)は、社会に深い影響を与える強力なツールである。多様な制御されていない入力に対する応答を生成する能力は、敵の攻撃に対して脆弱である。対照的な表現学習問題としてモデルディフェンスを定式化するディフェンスフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-13T16:42:09Z)
Sustainable Self-evolution Adversarial Training [51.25767996364584]
対戦型防衛モデルのための持続的自己進化支援訓練(SSEAT)フレームワークを提案する。本研究は,様々な種類の対角的事例から学習を実現するために,連続的な対向防衛パイプラインを導入する。また,より多様で重要な再学習データを選択するために,逆データ再生モジュールを提案する。
論文参考訳（メタデータ） (2024-12-03T08:41:11Z)
Scaling Laws for Black box Adversarial Attacks [37.744814957775965]
敵の例では、クロスモデル転送可能性を示し、ブラックボックスモデルを攻撃することができる。モデルアンサンブルは、複数のサロゲートモデルを同時に攻撃することで、転送可能性を改善する効果的な戦略である。スケールされた攻撃はセマンティクスにおいてより良い解釈可能性をもたらし、モデルの共通の特徴がキャプチャーされることを示す。
論文参考訳（メタデータ） (2024-11-25T08:14:37Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
Strong Model Collapse [16.071600606637908]
本稿では,モデル崩壊現象の強い形態が存在することを示す。以上の結果から,最小の合成データであっても,モデル崩壊につながる可能性が示唆された。大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデル崩壊を悪化させるか緩和させるかを検討する。
論文参考訳（メタデータ） (2024-10-07T08:54:23Z)
Scalable Ensembling For Mitigating Reward Overoptimisation [24.58937616758007]
ヒューマンフィードバックからの強化学習は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。ポリシーが学習したプロキシ"報酬モデルに過度に適合する傾向にあるため、これらのモデルの整合性は依然として急進的な課題である。
論文参考訳（メタデータ） (2024-06-03T05:46:53Z)
Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文参考訳（メタデータ） (2024-05-17T17:49:44Z)
Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game [28.33029508522531]
悪意のある攻撃者は大規模なモデルを誘導して脱獄させ、違法なプライバシー侵害情報を含む情報を生成する。大規模なモデルは、安全アライメントのような技術を使って悪意ある攻撃者の攻撃に対処する。本研究では,攻撃者に対して安全に応答し,防御意図を隠蔽する,弱い防御機構を実現するためのマルチエージェント攻撃ゲーム手法を提案する。
論文参考訳（メタデータ） (2024-04-03T07:43:11Z)
Isolation and Induction: Training Robust Deep Neural Networks against Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文参考訳（メタデータ） (2023-08-02T05:54:01Z)
Interpretable Computer Vision Models through Adversarial Training: Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文参考訳（メタデータ） (2023-07-04T13:51:55Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
Membership-Doctor: Comprehensive Assessment of Membership Inference Against Machine Learning Models [11.842337448801066]
本稿では,様々なメンバーシップ推論攻撃と防衛の大規模測定を行う。脅威モデル(例えば、同一構造や、シャドーモデルとターゲットモデルとの同一分布)のいくつかの仮定は不要である。また、実験室のデータセットではなく、インターネットから収集された実世界のデータに対する攻撃を最初に実施しました。
論文参考訳（メタデータ） (2022-08-22T17:00:53Z)
Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文参考訳（メタデータ） (2022-02-15T18:53:14Z)
Lagrangian Objective Function Leads to Improved Unforeseen Attack Generalization in Adversarial Training [0.0]
対人訓練(AT)は、訓練中に使用される攻撃に対して堅牢なモデルに到達するのに有効であることが示されている。我々は、上記の問題を緩和する簡易なAT修正を提案する。我々は,攻撃の一般化を意図した他の攻撃手法よりも,攻撃速度が速いことを示す。
論文参考訳（メタデータ） (2021-03-29T07:23:46Z)
"What's in the box?!": Deflecting Adversarial Attacks by Randomly Deploying Adversarially-Disjoint Models [71.91835408379602]
敵の例は長い間、機械学習モデルに対する真の脅威と考えられてきた。我々は、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、配置ベースの防衛パラダイムを提案する。
論文参考訳（メタデータ） (2021-02-09T20:07:13Z)
Adversarial Learning with Cost-Sensitive Classes [7.6596177815175475]
いくつかの特殊クラスのパフォーマンスを向上させるか、特に敵の学習における攻撃からそれらを保護する必要がある。本論文では,コストに敏感な分類と対比学習を組み合わせて,保護クラスと非保護クラスを区別できるモデルを訓練するフレームワークを提案する。
論文参考訳（メタデータ） (2021-01-29T03:15:40Z)
Explain2Attack: Text Adversarial Attacks via Cross-Domain Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文参考訳（メタデータ） (2020-10-14T04:56:41Z)
Learning to Attack: Towards Textual Adversarial Attacking in Real-world Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文参考訳（メタデータ） (2020-09-19T09:12:24Z)
Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。また,移動学習モデルに対するブラックボックス攻撃手法を提案する。ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文参考訳（メタデータ） (2020-08-25T15:04:32Z)
Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。本研究では,新たな敵模倣攻撃を提案する。
論文参考訳（メタデータ） (2020-03-28T10:02:49Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。