論文の概要: Accelerating Greedy Coordinate Gradient and General Prompt Optimization via Probe Sampling
- arxiv url: http://arxiv.org/abs/2403.01251v3
- Date: Fri, 08 Nov 2024 06:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:37.194310
- Title: Accelerating Greedy Coordinate Gradient and General Prompt Optimization via Probe Sampling
- Title(参考訳): プローブサンプリングによるGreedy Coordinate GradientとGeneral Prompt Optimizationの高速化
- Authors: Yiran Zhao, Wenyue Zheng, Tianle Cai, Xuan Long Do, Kenji Kawaguchi, Anirudh Goyal, Michael Shieh,
- Abstract要約: 大規模言語モデルの安全性(LLM)は、その急速な進歩から重要な問題となっている。
我々は、GCGの時間コストを削減するために$ttexttProbe sample$という新しいアルゴリズムを研究している。
プローブサンプリングは、他のプロンプト最適化手法や逆法を高速化することも可能である。
- 参考スコア(独自算出の注目度): 40.535672813968375
- License:
- Abstract: Safety of Large Language Models (LLMs) has become a critical issue given their rapid progresses. Greedy Coordinate Gradient (GCG) is shown to be effective in constructing adversarial prompts to break the aligned LLMs, but optimization of GCG is time-consuming. To reduce the time cost of GCG and enable more comprehensive studies of LLM safety, in this work, we study a new algorithm called $\texttt{Probe sampling}$. At the core of the algorithm is a mechanism that dynamically determines how similar a smaller draft model's predictions are to the target model's predictions for prompt candidates. When the target model is similar to the draft model, we rely heavily on the draft model to filter out a large number of potential prompt candidates. Probe sampling achieves up to $5.6$ times speedup using Llama2-7b-chat and leads to equal or improved attack success rate (ASR) on the AdvBench. Furthermore, probe sampling is also able to accelerate other prompt optimization techniques and adversarial methods, leading to acceleration of $1.8\times$ for AutoPrompt, $2.4\times$ for APE and $2.4\times$ for AutoDAN.
- Abstract(参考訳): 大規模言語モデルの安全性(LLM)は、その急速な進歩から重要な問題となっている。
グレディ・コーディネート・グラディエント (GCG) は, 対応するLCMを分解する逆方向のプロンプトを構築するのに有効であるが, GCGの最適化には時間がかかる。
本稿では,GCGの時間コストを低減し,LCMの安全性に関するより包括的な研究を可能にするため,$\texttt{Probe sample}$というアルゴリズムを新たに検討する。
アルゴリズムの中核は、より小さなドラフトモデルの予測がターゲットモデルの予測とどの程度類似しているかを動的に決定するメカニズムである。
ターゲットモデルがドラフトモデルと類似している場合、多くの潜在的なプロンプト候補をフィルタリングするために、ドラフトモデルに大きく依存します。
プローブサンプリングは、Llama2-7b-chatを使用して最大5.6ドルのスピードアップを達成し、AdvBench上での攻撃成功率(ASR)を同等または改善する。
さらに、プローブサンプリングは、他のプロンプト最適化手法や逆方向法を加速し、AutoPromptの1.8\times$、APEの2.4\times$、AutoDANの2.4\times$が加速される。
関連論文リスト
- Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models [21.96773736059112]
言語モデル(LLM)は、悪意のあるユーザによる誤用による安全性上の懸念に直面している。
近年のレッドチームの取り組みは、勾配に基づく探索アルゴリズムGreedy Coordinate Gradient (GCG) を用いて、LDMをジェイルブレイクできる敵サフィックスを特定している。
本稿では,2段階の移動学習フレームワークであるDeGCGを提案する。
論文 参考訳(メタデータ) (2024-08-27T08:38:48Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - SpecTr: Fast Speculative Decoding via Optimal Transport [30.18181671899423]
このアルゴリズムはデコーディングの高速化を図り、デコードされた出力に品質劣化がないことを保証します。
提案手法は,最先端の大規模言語モデルに対して,標準的なベンチマーク上での投機的復号化よりもさらに1.37倍の高速化である2.13Xのウォールクロック高速化を実現することを実験的に実証した。
論文 参考訳(メタデータ) (2023-10-23T17:47:34Z) - Optimization for Robustness Evaluation beyond $\ell_p$ Metrics [11.028091609739738]
敵対的攻撃に対するディープラーニングモデルの実証的評価は、非自明な制約付き最適化問題を解くことを伴う。
本稿では,PyGRANSO, With Constraint-Folding (PWCF) をブレンドして信頼性と汎用性を向上するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-02T20:48:05Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。