Fugu-MT 論文翻訳(概要): Exploring Scaling Trends in LLM Robustness

論文の概要: Exploring Scaling Trends in LLM Robustness

arxiv url: http://arxiv.org/abs/2407.18213v2
Date: Fri, 26 Jul 2024 11:51:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-29 12:30:11.144948
Title: Exploring Scaling Trends in LLM Robustness
Title（参考訳）: LLMロバストネスのスケーリング動向
Authors: Nikolaus Howe, Michał Zajac, Ian McKenzie, Oskar Hollinsworth, Tom Tseng, Pierre-Luc Bacon, Adam Gleave,
Abstract要約: 言語モデル機能は、モデルのサイズとトレーニングデータのスケーリングから、予測可能な改善を行う。これらのモデルは、好ましくない振る舞いを実行するためにハイジャックする「ジェイルブレイク」のような敵のプロンプトに弱い。より大きなモデルは敵の訓練にかなり良く反応するが、明確な防御がなければ、モデルスケールのメリットはほとんどない。
参考スコア（独自算出の注目度）: 8.057932419561428
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language model capabilities predictably improve from scaling a model's size and training data. Motivated by this, increasingly large language models have been trained, yielding an array of impressive capabilities. Yet these models are vulnerable to adversarial prompts, such as "jailbreaks" that hijack models to perform undesired behaviors, posing a significant risk of misuse. Prior work indicates that computer vision models become more robust with model and data scaling, raising the question: does language model robustness also improve with scale? We study this question empirically, finding that larger models respond substantially better to adversarial training, but there is little to no benefit from model scale in the absence of explicit defenses.
Abstract（参考訳）: 言語モデル機能は、モデルのサイズとトレーニングデータのスケーリングから、予測可能な改善を行う。これに触発されて、ますます大きな言語モデルが訓練され、印象的な能力を持つようになりました。しかし、これらのモデルは、好ましくない行動を実行するためにハイジャックモデルを実行する「ジェイルブレイク」のような敵のプロンプトに対して脆弱であり、誤用のかなりのリスクを生じさせる。以前の研究は、コンピュータビジョンモデルがモデルとデータのスケーリングによってより堅牢になることを示している。本研究では,より大規模なモデルが敵の訓練にかなり効果があることを実証的に研究するが,明確な防御がなければ,モデルスケールのメリットはほとんど見つからない。

関連論文リスト

Improving Large Language Model Safety with Contrastive Representation Learning [92.79965952162298]
大規模言語モデル(LLM)は、社会に深い影響を与える強力なツールである。多様な制御されていない入力に対する応答を生成する能力は、敵の攻撃に対して脆弱である。対照的な表現学習問題としてモデルディフェンスを定式化するディフェンスフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-13T16:42:09Z)
Sustainable Self-evolution Adversarial Training [51.25767996364584]
対戦型防衛モデルのための持続的自己進化支援訓練(SSEAT)フレームワークを提案する。本研究は,様々な種類の対角的事例から学習を実現するために,連続的な対向防衛パイプラインを導入する。また,より多様で重要な再学習データを選択するために,逆データ再生モジュールを提案する。
論文参考訳（メタデータ） (2024-12-03T08:41:11Z)
Scaling Laws for Black box Adversarial Attacks [37.744814957775965]
敵の例では、クロスモデル転送可能性を示し、ブラックボックスモデルを攻撃することができる。モデルアンサンブルは、複数のサロゲートモデルを同時に攻撃することで、転送可能性を改善する効果的な戦略である。スケールされた攻撃はセマンティクスにおいてより良い解釈可能性をもたらし、モデルの共通の特徴がキャプチャーされることを示す。
論文参考訳（メタデータ） (2024-11-25T08:14:37Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
Strong Model Collapse [16.071600606637908]
本稿では,モデル崩壊現象の強い形態が存在することを示す。以上の結果から,最小の合成データであっても,モデル崩壊につながる可能性が示唆された。大規模言語モデルの学習における現在の傾向に沿ったアプローチであるモデルサイズの増加が,モデル崩壊を悪化させるか緩和させるかを検討する。
論文参考訳（メタデータ） (2024-10-07T08:54:23Z)
Scalable Ensembling For Mitigating Reward Overoptimisation [24.58937616758007]
ヒューマンフィードバックからの強化学習は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。ポリシーが学習したプロキシ"報酬モデルに過度に適合する傾向にあるため、これらのモデルの整合性は依然として急進的な課題である。
論文参考訳（メタデータ） (2024-06-03T05:46:53Z)
Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文参考訳（メタデータ） (2024-05-17T17:49:44Z)
Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game [28.33029508522531]
悪意のある攻撃者は大規模なモデルを誘導して脱獄させ、違法なプライバシー侵害情報を含む情報を生成する。大規模なモデルは、安全アライメントのような技術を使って悪意ある攻撃者の攻撃に対処する。本研究では,攻撃者に対して安全に応答し,防御意図を隠蔽する,弱い防御機構を実現するためのマルチエージェント攻撃ゲーム手法を提案する。
論文参考訳（メタデータ） (2024-04-03T07:43:11Z)
Isolation and Induction: Training Robust Deep Neural Networks against Model Stealing Attacks [51.51023951695014]
既存のモデル盗難防衛は、被害者の後部確率に偽りの摂動を加え、攻撃者を誤解させる。本稿では,モデルステルス防衛のための新規かつ効果的なトレーニングフレームワークである分離誘導(InI)を提案する。モデルの精度を損なうモデル予測に摂動を加えるのとは対照的に、我々はモデルを訓練して、盗むクエリに対して非形式的なアウトプットを生成する。
論文参考訳（メタデータ） (2023-08-02T05:54:01Z)
Interpretable Computer Vision Models through Adversarial Training: Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文参考訳（メタデータ） (2023-07-04T13:51:55Z)
Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。異なるサイズの言語モデルは事前学習中にどのように学習するか? より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文参考訳（メタデータ） (2022-12-19T19:16:29Z)
Membership-Doctor: Comprehensive Assessment of Membership Inference Against Machine Learning Models [11.842337448801066]
本稿では,様々なメンバーシップ推論攻撃と防衛の大規模測定を行う。脅威モデル(例えば、同一構造や、シャドーモデルとターゲットモデルとの同一分布)のいくつかの仮定は不要である。また、実験室のデータセットではなく、インターネットから収集された実世界のデータに対する攻撃を最初に実施しました。
論文参考訳（メタデータ） (2022-08-22T17:00:53Z)
Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文参考訳（メタデータ） (2022-02-15T18:53:14Z)
Lagrangian Objective Function Leads to Improved Unforeseen Attack Generalization in Adversarial Training [0.0]
対人訓練(AT)は、訓練中に使用される攻撃に対して堅牢なモデルに到達するのに有効であることが示されている。我々は、上記の問題を緩和する簡易なAT修正を提案する。我々は,攻撃の一般化を意図した他の攻撃手法よりも,攻撃速度が速いことを示す。
論文参考訳（メタデータ） (2021-03-29T07:23:46Z)
"What's in the box?!": Deflecting Adversarial Attacks by Randomly Deploying Adversarially-Disjoint Models [71.91835408379602]
敵の例は長い間、機械学習モデルに対する真の脅威と考えられてきた。我々は、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、配置ベースの防衛パラダイムを提案する。
論文参考訳（メタデータ） (2021-02-09T20:07:13Z)
Adversarial Learning with Cost-Sensitive Classes [7.6596177815175475]
いくつかの特殊クラスのパフォーマンスを向上させるか、特に敵の学習における攻撃からそれらを保護する必要がある。本論文では,コストに敏感な分類と対比学習を組み合わせて,保護クラスと非保護クラスを区別できるモデルを訓練するフレームワークを提案する。
論文参考訳（メタデータ） (2021-01-29T03:15:40Z)
Explain2Attack: Text Adversarial Attacks via Cross-Domain Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文参考訳（メタデータ） (2020-10-14T04:56:41Z)
Learning to Attack: Towards Textual Adversarial Attacking in Real-world Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文参考訳（メタデータ） (2020-09-19T09:12:24Z)
Two Sides of the Same Coin: White-box and Black-box Attacks for Transfer Learning [60.784641458579124]
ホワイトボックスFGSM攻撃によるモデルロバスト性を効果的に向上することを示す。また,移動学習モデルに対するブラックボックス攻撃手法を提案する。ホワイトボックス攻撃とブラックボックス攻撃の双方の効果を系統的に評価するために,ソースモデルからターゲットモデルへの変換可能性の評価手法を提案する。
論文参考訳（メタデータ） (2020-08-25T15:04:32Z)
Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。本研究では,新たな敵模倣攻撃を提案する。
論文参考訳（メタデータ） (2020-03-28T10:02:49Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。