論文の概要: Exploring Scaling Trends in LLM Robustness
- arxiv url: http://arxiv.org/abs/2407.18213v1
- Date: Thu, 25 Jul 2024 17:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 13:19:20.737563
- Title: Exploring Scaling Trends in LLM Robustness
- Title(参考訳): LLMロバストネスのスケーリング動向
- Authors: Nikolhaus Howe, Michał Zajac, Ian McKenzie, Oskar Hollinsworth, Tom Tseng, Pierre-Luc Bacon, Adam Gleave,
- Abstract要約: 言語モデル機能は、モデルのサイズとトレーニングデータのスケーリングから、予測可能な改善を行う。
これらのモデルは、好ましくない振る舞いを実行するためにハイジャックする「ジェイルブレイク」のような敵のプロンプトに弱い。
より大きなモデルは敵の訓練にかなり良く反応するが、明確な防御がなければ、モデルスケールのメリットはほとんどない。
- 参考スコア(独自算出の注目度): 8.057932419561428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model capabilities predictably improve from scaling a model's size and training data. Motivated by this, increasingly large language models have been trained, yielding an array of impressive capabilities. Yet these models are vulnerable to adversarial prompts, such as "jailbreaks" that hijack models to perform undesired behaviors, posing a significant risk of misuse. Prior work indicates that computer vision models become more robust with model and data scaling, raising the question: does language model robustness also improve with scale? We study this question empirically, finding that larger models respond substantially better to adversarial training, but there is little to no benefit from model scale in the absence of explicit defenses.
- Abstract(参考訳): 言語モデル機能は、モデルのサイズとトレーニングデータのスケーリングから、予測可能な改善を行う。
これに触発されて、ますます大きな言語モデルが訓練され、印象的な能力を持つようになりました。
しかし、これらのモデルは、好ましくない行動を実行するためにハイジャックモデルを実行する「ジェイルブレイク」のような敵のプロンプトに対して脆弱であり、誤用のかなりのリスクを生じさせる。
以前の研究は、コンピュータビジョンモデルがモデルとデータのスケーリングによってより堅牢になることを示している。
本研究では,より大規模なモデルが敵の訓練にかなり効果があることを実証的に研究するが,明確な防御がなければ,モデルスケールのメリットはほとんど見つからない。
関連論文リスト
- A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Strong Model Collapse [16.071600606637908]
本稿では,モデル崩壊現象の強い形態が存在することを示す。
以上の結果から,最小の合成データであっても,モデル崩壊につながる可能性が示唆された。
大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデル崩壊を悪化させるか緩和させるかを検討する。
論文 参考訳(メタデータ) (2024-10-07T08:54:23Z) - Scalable Ensembling For Mitigating Reward Overoptimisation [24.58937616758007]
ヒューマンフィードバックからの強化学習は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。
ポリシーが学習したプロキシ"報酬モデルに過度に適合する傾向にあるため、これらのモデルの整合性は依然として急進的な課題である。
論文 参考訳(メタデータ) (2024-06-03T05:46:53Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Interpretable Computer Vision Models through Adversarial Training:
Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。
標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文 参考訳(メタデータ) (2023-07-04T13:51:55Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - "What's in the box?!": Deflecting Adversarial Attacks by Randomly
Deploying Adversarially-Disjoint Models [71.91835408379602]
敵の例は長い間、機械学習モデルに対する真の脅威と考えられてきた。
我々は、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、配置ベースの防衛パラダイムを提案する。
論文 参考訳(メタデータ) (2021-02-09T20:07:13Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。