論文の概要: Attacking Large Language Models with Projected Gradient Descent
- arxiv url: http://arxiv.org/abs/2402.09154v1
- Date: Wed, 14 Feb 2024 13:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 15:35:24.775956
- Title: Attacking Large Language Models with Projected Gradient Descent
- Title(参考訳): 重み付けによる大規模言語モデルへの攻撃
- Authors: Simon Geisler, Tom Wollschl\"ager, M. H. I. Abdalla, Johannes
Gasteiger, Stephan G\"unnemann
- Abstract要約: 逆数プロンプトの射影勾配 Descent (PGD) は、最先端の離散最適化よりも最大1桁高速である。
我々のLPM用PGDは、同じ破壊的な攻撃結果を達成するために、最先端の離散最適化よりも最大1桁高速である。
- 参考スコア(独自算出の注目度): 12.130638442765857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current LLM alignment methods are readily broken through specifically crafted
adversarial prompts. While crafting adversarial prompts using discrete
optimization is highly effective, such attacks typically use more than 100,000
LLM calls. This high computational cost makes them unsuitable for, e.g.,
quantitative analyses and adversarial training. To remedy this, we revisit
Projected Gradient Descent (PGD) on the continuously relaxed input prompt.
Although previous attempts with ordinary gradient-based attacks largely failed,
we show that carefully controlling the error introduced by the continuous
relaxation tremendously boosts their efficacy. Our PGD for LLMs is up to one
order of magnitude faster than state-of-the-art discrete optimization to
achieve the same devastating attack results.
- Abstract(参考訳): 現在のLLMアライメント法は、特定の対向プロンプトによって容易に破壊される。
個別最適化を用いた攻撃プロンプトの作成は極めて効果的であるが、そのような攻撃は通常10万回以上のllm呼び出しを使用する。
この高い計算コストは、例えば定量的解析や逆行訓練に不適当である。
これを改善するために、連続的に緩和された入力プロンプトに投影された勾配降下(PGD)を再検討する。
従来のグラデーションベース攻撃は, ほとんど失敗に終わったが, 連続緩和による誤差を慎重に制御することは, 有効性を著しく向上させることを示した。
LLMのPGDは、同じ破壊的な攻撃結果を達成するために、最先端の離散最適化よりも最大1桁高速である。
関連論文リスト
- Boosting Jailbreak Attack with Momentum [5.047814998088682]
大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めていますが、敵の攻撃に弱いままです。
textbfMomentum textbfAccelerated GtextbfCG(textbfMAC)攻撃を導入する。
論文 参考訳(メタデータ) (2024-05-02T12:18:14Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Fast Adversarial Training with Adaptive Step Size [62.37203478589929]
トレーニングインスタンスの観点から,この現象を考察する。
適応ステップサイズ(ATAS)を用いた逆学習法を提案する。
ATASは、その勾配ノルムに逆比例するインスタンス順応的なステップサイズを学習する。
論文 参考訳(メタデータ) (2022-06-06T08:20:07Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [17.17479625646699]
そこで本研究では,テキストの敵対的サンプルを作成するための統一的なフレームワークを提案する。
本稿では,T-PGD(Textual Projected Gradient Descent)という攻撃アルゴリズムを用いて,我々のフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Defending Pre-trained Language Models from Adversarial Word
Substitutions Without Performance Sacrifice [42.490810188180546]
敵対的単語置換は 最も困難な テキストの敵対的攻撃方法の1つです
本稿では、ADFAR(Anomaly Detection with Frequency-Aware Randomization)という、コンパクトかつ高性能に保存されたフレームワークを提案する。
本研究では, ADFAR が提案した防衛手法を, より高速な推論速度で大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-05-30T14:24:53Z) - Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。
本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。
我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文 参考訳(メタデータ) (2020-05-21T12:53:36Z) - Towards Rapid and Robust Adversarial Training with One-Step Attacks [0.0]
敵の訓練は、敵の攻撃に対するニューラルネットワークの堅牢性を高める最も成功した方法である。
本稿では,計算コストの低いFast Gradient Sign Methodを用いて,敵対的学習を可能にする2つのアイデアを提案する。
FGSMをベースとした対向訓練と併用したノイズ注入は、PGDによる対向訓練に匹敵する結果が得られ、より高速であることを示す。
論文 参考訳(メタデータ) (2020-02-24T07:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。