Fugu-MT 論文翻訳(概要): Self-Evaluation as a Defense Against Adversarial Attacks on LLMs

論文の概要: Self-Evaluation as a Defense Against Adversarial Attacks on LLMs

arxiv url: http://arxiv.org/abs/2407.03234v1
Date: Wed, 3 Jul 2024 16:03:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 13:27:21.157542
Title: Self-Evaluation as a Defense Against Adversarial Attacks on LLMs
Title（参考訳）: LLMの敵攻撃に対する防御としての自己評価
Authors: Hannah Brown, Leon Lin, Kenji Kawaguchi, Michael Shieh,
Abstract要約: モデル入力の端に空間を付加するだけで、モデルディフェンスを壊すことが可能であることを示す。トークン化されたトレーニングデータに単一空間が存在する状況は、モデルにトリガーされた時にリストを生成することを奨励する。
参考スコア（独自算出の注目度）: 20.79833694266861
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When LLMs are deployed in sensitive, human-facing settings, it is crucial that they do not output unsafe, biased, or privacy-violating outputs. For this reason, models are both trained and instructed to refuse to answer unsafe prompts such as "Tell me how to build a bomb." We find that, despite these safeguards, it is possible to break model defenses simply by appending a space to the end of a model's input. In a study of eight open-source models, we demonstrate that this acts as a strong enough attack to cause the majority of models to generate harmful outputs with very high success rates. We examine the causes of this behavior, finding that the contexts in which single spaces occur in tokenized training data encourage models to generate lists when prompted, overriding training signals to refuse to answer unsafe requests. Our findings underscore the fragile state of current model alignment and promote the importance of developing more robust alignment methods. Code and data will be made available at https://github.com/Linlt-leon/Adversarial-Alignments.
Abstract（参考訳）: LLMがセンシティブでヒューマン対応的な設定でデプロイされる場合、安全でない、バイアスのある、あるいはプライバシーに違反するアウトプットを出力しないことが重要です。このため、モデルには「爆弾の作り方を教える」といった安全でないプロンプトへの答えを拒否するよう訓練され、指示されている。これらのセーフガードにもかかわらず、モデル入力の端にスペースを付加するだけで、モデル防御を壊すことが可能である。 8つのオープンソースモデルの研究において、これはモデルの大半が非常に高い成功率で有害なアウトプットを生成するのに十分な攻撃であることを示した。トークン化されたトレーニングデータに単一空間が存在する状況は、入力された時にリストを生成することを奨励し、安全でない要求に応答しないようにトレーニング信号をオーバーライドする。本研究は、現在のモデルアライメントの脆弱な状態を強調し、より堅牢なアライメント手法を開発することの重要性を促進するものである。コードとデータはhttps://github.com/Linlt-leon/Adversarial-Alignments.comで公開される。

関連論文リスト

Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力の評価は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文参考訳（メタデータ） (2025-02-03T18:59:16Z)
Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。 LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文参考訳（メタデータ） (2024-11-01T09:14:21Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文参考訳（メタデータ） (2024-09-11T00:00:58Z)
Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文参考訳（メタデータ） (2024-06-05T13:06:33Z)
Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。 C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文参考訳（メタデータ） (2024-05-24T14:20:09Z)
DALA: A Distribution-Aware LoRA-Based Adversarial Attack against Language Models [64.79319733514266]
敵攻撃は入力データに微妙な摂動をもたらす可能性がある。最近の攻撃方法は比較的高い攻撃成功率(ASR)を達成することができる。そこで本研究では,分散ロラをベースとしたDALA(Adversarial Attack)手法を提案する。
論文参考訳（メタデータ） (2023-11-14T23:43:47Z)
Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack [96.50202709922698]
実用的な評価手法は、便利な(パラメータフリー)、効率的な(イテレーションの少ない)、信頼性を持つべきである。本稿では,パラメータフリーな適応オートアタック (A$3$) 評価手法を提案する。
論文参考訳（メタデータ） (2022-03-10T04:53:54Z)
Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文参考訳（メタデータ） (2021-10-13T13:54:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。