論文の概要: Early Approaches to Adversarial Fine-Tuning for Prompt Injection Defense: A 2022 Study of GPT-3 and Contemporary Models
- arxiv url: http://arxiv.org/abs/2509.14271v1
- Date: Mon, 15 Sep 2025 19:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.903062
- Title: Early Approaches to Adversarial Fine-Tuning for Prompt Injection Defense: A 2022 Study of GPT-3 and Contemporary Models
- Title(参考訳): プロンプト・インジェクション・ディフェンスにおける逆方向微調整の初期的アプローチ:2022年GPT-3と現代モデルの検討
- Authors: Gustavo Sandoval, Denys Fenchenko, Junyao Chen,
- Abstract要約: 本稿は2022年に行われた大規模言語モデルにおけるインジェクション攻撃に対する防御に関する初期の研究について述べる。
本研究では,これらの攻撃をどうやって構築し,様々な大規模言語モデルで検証し,その有効性を比較する。
そこで我々は,Adversarial Fine-Tuningと呼ばれる新しい防御手法を提案し,評価する。
- 参考スコア(独自算出の注目度): 2.6947234418203347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper documents early research conducted in 2022 on defending against prompt injection attacks in large language models, providing historical context for the evolution of this critical security domain. This research focuses on two adversarial attacks against Large Language Models (LLMs): prompt injection and goal hijacking. We examine how to construct these attacks, test them on various LLMs, and compare their effectiveness. We propose and evaluate a novel defense technique called Adversarial Fine-Tuning. Our results show that, without this defense, the attacks succeeded 31\% of the time on GPT-3 series models. When using our Adversarial Fine-Tuning approach, attack success rates were reduced to near zero for smaller GPT-3 variants (Ada, Babbage, Curie), though we note that subsequent research has revealed limitations of fine-tuning-based defenses. We also find that more flexible models exhibit greater vulnerability to these attacks. Consequently, large models such as GPT-3 Davinci are more vulnerable than smaller models like GPT-2. While the specific models tested are now superseded, the core methodology and empirical findings contributed to the foundation of modern prompt injection defense research, including instruction hierarchy systems and constitutional AI approaches.
- Abstract(参考訳): 本稿は,2022年に行われた大規模言語モデルにおけるインジェクション攻撃に対する防御に関する初期の研究成果を報告する。
本研究では,Large Language Models (LLMs) に対する2つの敵攻撃,即発注入とゴールハイジャックに焦点を当てた。
これらの攻撃をどのように構築し、様々なLSM上でそれらをテストし、その効果を比較検討する。
そこで我々は,Adversarial Fine-Tuningと呼ばれる新しい防御手法を提案し,評価する。
その結果,この防御がなければ,GPT-3シリーズモデルでは31%の時間で攻撃が成功していることがわかった。
当社のAdversarial Fine-Tuningアプローチでは,より小さなGPT-3変種(Ada, Babbage, Curie)に対して,攻撃成功率がほぼゼロに低下した。
また、より柔軟なモデルがこれらの攻撃により大きな脆弱性をもたらすこともわかりました。
その結果、GPT-3 Davinciのような大型モデルは、GPT-2のような小型モデルよりも脆弱である。
テストされた特定のモデルは現在では置き換えられているが、中核となる方法論と実証的な発見は、命令階層システムや立憲AIアプローチを含む近代的な即時注入防衛研究の基盤に寄与した。
関連論文リスト
- A Critical Evaluation of Defenses against Prompt Injection Attacks [95.81023801370073]
大型言語モデル (LLM) はインジェクション攻撃に弱い。
いくつかの防衛策が提案され、しばしばこれらの攻撃をうまく緩和すると主張した。
既存の研究は、これらの防衛を評価するための原則的なアプローチを欠いていると論じる。
論文 参考訳(メタデータ) (2025-05-23T19:39:56Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。
PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。
3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-15T14:51:32Z) - Evaluating Adversarial Robustness: A Comparison Of FGSM, Carlini-Wagner Attacks, And The Role of Distillation as Defense Mechanism [0.0]
本研究では、画像分類に使用されるディープニューラルネットワーク(DNN)を対象とする敵攻撃について検討する。
本研究は,FGSM (Fast Gradient Sign Method) とCarini-Wagner (CW) の2つの攻撃手法の分岐を理解することに焦点を当てている。
本研究は,FGSMおよびCW攻撃に対する防御機構として,防衛蒸留の堅牢性を提案する。
論文 参考訳(メタデータ) (2024-04-05T17:51:58Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - The Space of Adversarial Strategies [6.295859509997257]
機械学習モデルにおける最悪のケース動作を誘発するインプットである逆例は、過去10年間に広く研究されてきた。
最悪の場合(すなわち最適な)敵を特徴づける体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-09-09T20:53:11Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。