論文の概要: Optimization-based Prompt Injection Attack to LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2403.17710v1
- Date: Tue, 26 Mar 2024 13:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:17:51.053527
- Title: Optimization-based Prompt Injection Attack to LLM-as-a-Judge
- Title(参考訳): LLM-as-a-Judgeに対する最適化型プロンプトインジェクション攻撃
- Authors: Jiawen Shi, Zenghui Yuan, Yinuo Liu, Yue Huang, Pan Zhou, Lichao Sun, Neil Zhenqiang Gong,
- Abstract要約: 我々は,LLM-as-a-Judgeに合わせた新しい最適化ベースのプロンプトインジェクションアタックであるJiceDeceiverを紹介する。
提案手法は, LLM-as-a-Judgeの意思決定プロセスに対する正確な最適化目標を定式化する。
本手法は,手技によるインジェクション攻撃と比較して,優れた有効性を示す。
- 参考スコア(独自算出の注目度): 78.20257854455562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-as-a-Judge is a novel solution that can assess textual information with large language models (LLMs). Based on existing research studies, LLMs demonstrate remarkable performance in providing a compelling alternative to traditional human assessment. However, the robustness of these systems against prompt injection attacks remains an open question. In this work, we introduce JudgeDeceiver, a novel optimization-based prompt injection attack tailored to LLM-as-a-Judge. Our method formulates a precise optimization objective for attacking the decision-making process of LLM-as-a-Judge and utilizes an optimization algorithm to efficiently automate the generation of adversarial sequences, achieving targeted and effective manipulation of model evaluations. Compared to handcraft prompt injection attacks, our method demonstrates superior efficacy, posing a significant challenge to the current security paradigms of LLM-based judgment systems. Through extensive experiments, we showcase the capability of JudgeDeceiver in altering decision outcomes across various cases, highlighting the vulnerability of LLM-as-a-Judge systems to the optimization-based prompt injection attack.
- Abstract(参考訳): LLM-as-a-Judgeは、大きな言語モデル(LLM)でテキスト情報を評価できる新しいソリューションである。
従来の研究では、従来の人間の評価に取って代わる優れた代替手段を提供する上で、LLMは優れた性能を発揮している。
しかしながら、これらのシステムによるインジェクション攻撃に対する堅牢性は、未解決の問題である。
本稿では,LLM-as-a-Judgeに合わせた新しい最適化ベースのプロンプトインジェクション攻撃であるJiceDeceiverを紹介する。
提案手法は,LLM-as-a-Judgeの意思決定プロセスを攻撃するための正確な最適化目標を定式化し,その最適化アルゴリズムを用いて,モデル評価のターゲットかつ効果的な操作を実現する。
本手法は,手技によるインジェクション攻撃と比較して優れた有効性を示し,LLMに基づく判定システムのセキュリティパラダイムにおいて重要な課題となっている。
広範にわたる実験を通じて,様々な事例における意思決定結果の変更におけるJiceDeceiverの能力を示し,LLM-as-a-Judgeシステムの脆弱性を最適化ベースのプロンプトインジェクションアタックに強調した。
関連論文リスト
- Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。
しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。
このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文 参考訳(メタデータ) (2024-10-28T00:36:21Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
アドリアルプロンプトは外部データソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を約0%に低下させる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - QROA: A Black-Box Query-Response Optimization Attack on LLMs [2.7624021966289605]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を持っている。
本研究は,問合せのみの相互作用を通じてLCMを利用する最適化戦略であるクエリ応答最適化攻撃(QROA)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T07:27:36Z) - Prompt Optimization with Human Feedback [69.95991134172282]
人間のフィードバックによる迅速な最適化問題(POHF)について検討する。
我々は自動POHF(Automatic POHF)というアルゴリズムを導入する。
その結果、APOHFは、少数の好みフィードバックインスタンスを用いて、効率的に適切なプロンプトを見つけることができることがわかった。
論文 参考訳(メタデータ) (2024-05-27T16:49:29Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
本稿では,AdvPrompterと呼ばれる新たな大規模言語モデルを用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
我々は、ターゲットLLMの勾配にアクセスする必要がない新しいアルゴリズムを用いてAdvPrompterを訓練する。
訓練されたAdvPrompterは、TargetLLMを誘引して有害な応答を与えるように、意味を変えずに入力命令を無効にする接尾辞を生成する。
論文 参考訳(メタデータ) (2024-04-21T22:18:13Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - Jailbreaker in Jail: Moving Target Defense for Large Language Models [4.426665953648274]
大規模言語モデル(LLM)は敵攻撃に対して脆弱である。
LLMは非倫理的な答えを提示することで「無害」に失敗するか、意味のある答えを拒むことで「有害」に失敗する。
有効性と無害性を両立させるため,移動目標防御(MTD)強化LLMシステムを設計した。
論文 参考訳(メタデータ) (2023-10-03T20:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。