論文の概要: Accelerating Greedy Coordinate Gradient via Probe Sampling
- arxiv url: http://arxiv.org/abs/2403.01251v1
- Date: Sat, 2 Mar 2024 16:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 14:27:41.325376
- Title: Accelerating Greedy Coordinate Gradient via Probe Sampling
- Title(参考訳): プローブサンプリングによるグレディ座標勾配の高速化
- Authors: Yiran Zhao, Wenyue Zheng, Tianle Cai, Xuan Long Do, Kenji Kawaguchi,
Anirudh Goyal, Michael Shieh
- Abstract要約: 我々はGCGアルゴリズムを高速化するために$ttexttProbe sample$という新しいアルゴリズムを研究している。
ターゲットモデルがドラフトモデルと類似している場合、多くの潜在的なプロンプト候補をフィルタリングするために、ドラフトモデルに大きく依存します。
プローブサンプリングは、Llama2-7bを使用して最大5.6ドルのスピードアップを達成し、AdvBench上での攻撃成功率(ASR)を同等または改善する。
- 参考スコア(独自算出の注目度): 42.568363339075994
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Safety of Large Language Models (LLMs) has become a central issue given their
rapid progress and wide applications. Greedy Coordinate Gradient (GCG) is shown
to be effective in constructing prompts containing adversarial suffixes to
break the presumingly safe LLMs, but the optimization of GCG is time-consuming
and limits its practicality. To reduce the time cost of GCG and enable more
comprehensive studies of LLM safety, in this work, we study a new algorithm
called $\texttt{Probe sampling}$ to accelerate the GCG algorithm. At the core
of the algorithm is a mechanism that dynamically determines how similar a
smaller draft model's predictions are to the target model's predictions for
prompt candidates. When the target model is similar to the draft model, we rely
heavily on the draft model to filter out a large number of potential prompt
candidates to reduce the computation time. Probe sampling achieves up to $5.6$
times speedup using Llama2-7b and leads to equal or improved attack success
rate (ASR) on the AdvBench.
- Abstract(参考訳): 大規模言語モデルの安全性(LLM)は、その急速な進歩と幅広い応用から、中心的な問題となっている。
グリーディ座標勾配 (gcg) は, 潜在的に安全な llm を壊すための逆接尾辞を含むプロンプトの構築に有効であることが示されているが, gcg の最適化には時間がかかり, 実用性に制限がある。
本稿では,GCGの時間コストを低減し,LCM安全性のより包括的な研究を可能にするため,GCGアルゴリズムを高速化するために,$\texttt{Probe sample}$という新しいアルゴリズムを提案する。
アルゴリズムの核心は、より小さなドラフトモデルの予測が、プロンプト候補に対するターゲットモデルの予測とどの程度類似しているかを動的に決定するメカニズムである。
対象モデルがドラフトモデルと類似している場合,多くの候補候補をフィルタリングして計算時間を短縮するために,ドラフトモデルに大きく依存する。
プローブサンプリングは、Llama2-7bを使用して最大5.6ドルのスピードアップを達成し、AdvBench上での攻撃成功率(ASR)を同等または改善する。
関連論文リスト
- FR-Spec: Accelerating Large-Vocabulary Language Models via Frequency-Ranked Speculative Sampling [59.8051705468084]
投機的サンプリングは,大規模言語モデルの自己回帰生成プロセスを促進する重要な手法として登場した。
本稿では、語彙空間圧縮によるドラフト候補選択を最適化する周波数ランクの投機的サンプリングフレームワークFR-Specを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:58:10Z) - Efficient Inference for Large Language Model-based Generative Recommendation [78.38878421030522]
LLM(Large Language Model)ベースの生成レコメンデーションは目覚ましい成功を収めた。
ジェネレーティブレコメンデーションにSD(Speculative Decoding)を適用すると、トップKアイテムを生成する必要があるため、ユニークな課題が提示される。
我々は,厳密なトップK検証の下でトップKアライメントを最適化する AtSpeed-S というアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:23:36Z) - Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models [21.96773736059112]
言語モデル(LLM)は、悪意のあるユーザによる誤用による安全性上の懸念に直面している。
近年のレッドチームの取り組みは、勾配に基づく探索アルゴリズムGreedy Coordinate Gradient (GCG) を用いて、LDMをジェイルブレイクできる敵サフィックスを特定している。
本稿では,2段階の移動学習フレームワークであるDeGCGを提案する。
論文 参考訳(メタデータ) (2024-08-27T08:38:48Z) - Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Optimization for Robustness Evaluation beyond $\ell_p$ Metrics [11.028091609739738]
敵対的攻撃に対するディープラーニングモデルの実証的評価は、非自明な制約付き最適化問題を解くことを伴う。
本稿では,PyGRANSO, With Constraint-Folding (PWCF) をブレンドして信頼性と汎用性を向上するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-02T20:48:05Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。