論文の概要: Towards the Worst-case Robustness of Large Language Models
- arxiv url: http://arxiv.org/abs/2501.19040v2
- Date: Thu, 08 May 2025 15:33:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 15:15:32.715963
- Title: Towards the Worst-case Robustness of Large Language Models
- Title(参考訳): 大規模言語モデルの最悪のロバスト性に向けて
- Authors: Huanran Chen, Yinpeng Dong, Zeming Wei, Hang Su, Jun Zhu,
- Abstract要約: 近年の研究では、敵対的攻撃に対する大きな言語モデルの脆弱性が明らかにされており、敵は有害、暴力、私的、不正なアウトプットを誘導するために特定の入力シーケンスを使用する。
この研究では、最悪の場合のロバスト性、すなわち、そのような望ましくない出力をもたらす逆例が存在するかどうかを調査する。
より強力なホワイトボックス攻撃で最悪の場合のロバスト性を上限にし、現在の決定論的防御のほとんどが、最悪の場合のロバストネスを0%近く達成していることを示す。
- 参考スコア(独自算出の注目度): 38.26913877579708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have revealed the vulnerability of large language models to adversarial attacks, where adversaries craft specific input sequences to induce harmful, violent, private, or incorrect outputs. In this work, we study their worst-case robustness, i.e., whether an adversarial example exists that leads to such undesirable outputs. We upper bound the worst-case robustness using stronger white-box attacks, indicating that most current deterministic defenses achieve nearly 0\% worst-case robustness. We propose a general tight lower bound for randomized smoothing using fractional knapsack solvers or 0-1 knapsack solvers, and using them to bound the worst-case robustness of all stochastic defenses. Based on these solvers, we provide theoretical lower bounds for several previous empirical defenses. For example, we certify the robustness of a specific case, smoothing using a uniform kernel, against \textit{any possible attack} with an average $\ell_0$ perturbation of 2.02 or an average suffix length of 6.41.
- Abstract(参考訳): 近年の研究では、敵対的攻撃に対する大きな言語モデルの脆弱性が明らかにされており、敵は有害、暴力、私的、不正なアウトプットを誘導するために特定の入力シーケンスを使用する。
この研究では、最悪の場合のロバスト性、すなわち、そのような望ましくない出力をもたらす逆例が存在するかどうかを調査する。
より強力なホワイトボックス攻撃で最悪の場合のロバスト性を上限にし、現在の決定論的防御のほとんどが、最悪の場合のロバスト性(英語版)をほぼ 0 % 近く達成していることを示す。
本研究では, 分数knapsackソルバあるいは0-1knapsackソルバを用いて, ランダム化平滑化のための一般化された下界を提案し, それらを用いて, 確率的防御の最悪のロバスト性を求める。
これらの解法に基づいて、我々はいくつかの過去の経験的防御に対して理論的に低い境界を提供する。
例えば、一様カーネルを用いて、平均$\ell_0$摂動2.02または平均接尾辞長さ6.41の \textit{any possible attack} に対して、特定のケースのロバスト性を証明する。
関連論文リスト
- A generative approach to LLM harmfulness detection with special red flag tokens [15.796683630119654]
我々はレッドフラッグトークン(rf>)と呼ばれる特別なトークンでモデルの語彙を拡張することを提案する。
本発明の安全性訓練方法は、会話中に常に有害な生成分類器にLLMを効果的に増強する。
また、入力プロンプトだけでなく、生成された各回答を評価し、サンプリングベースの攻撃に対してより強力な防御を提供する。
論文 参考訳(メタデータ) (2025-02-22T21:48:48Z) - Smoothed Embeddings for Robust Language Models [11.97873981355746]
大規模言語モデル(LLM)は、アライメントを抑え、有害な出力を誘導するジェイルブレイク攻撃に対して脆弱である。
本稿では,埋め込みベクトルにランダムノイズを付加し,各出力トークンの生成時にアグリゲーションを行うRESTAディフェンスを提案する。
本実験は,本手法がベースラインディフェンスと比較して,実用上のトレードオフよりも優れたロバスト性を実現することを示す。
論文 参考訳(メタデータ) (2025-01-27T20:57:26Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Fooling the Textual Fooler via Randomizing Latent Representations [13.77424820701913]
敵語レベルの摂動はよく研究され効果的な攻撃戦略である。
本稿では、敵の例を生成する過程を複雑にすることを目的とする、軽量で攻撃に依存しない防御法を提案する。
本稿では,AdvFoolerの対人的単語レベル攻撃に対する最先端のロバスト性を実証的に示す。
論文 参考訳(メタデータ) (2023-10-02T06:57:25Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。