論文の概要: Optimization-based Prompt Injection Attack to LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2403.17710v1
- Date: Tue, 26 Mar 2024 13:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:17:51.053527
- Title: Optimization-based Prompt Injection Attack to LLM-as-a-Judge
- Title(参考訳): LLM-as-a-Judgeに対する最適化型プロンプトインジェクション攻撃
- Authors: Jiawen Shi, Zenghui Yuan, Yinuo Liu, Yue Huang, Pan Zhou, Lichao Sun, Neil Zhenqiang Gong,
- Abstract要約: 我々は,LLM-as-a-Judgeに合わせた新しい最適化ベースのプロンプトインジェクションアタックであるJiceDeceiverを紹介する。
提案手法は, LLM-as-a-Judgeの意思決定プロセスに対する正確な最適化目標を定式化する。
本手法は,手技によるインジェクション攻撃と比較して,優れた有効性を示す。
- 参考スコア(独自算出の注目度): 78.20257854455562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-as-a-Judge is a novel solution that can assess textual information with large language models (LLMs). Based on existing research studies, LLMs demonstrate remarkable performance in providing a compelling alternative to traditional human assessment. However, the robustness of these systems against prompt injection attacks remains an open question. In this work, we introduce JudgeDeceiver, a novel optimization-based prompt injection attack tailored to LLM-as-a-Judge. Our method formulates a precise optimization objective for attacking the decision-making process of LLM-as-a-Judge and utilizes an optimization algorithm to efficiently automate the generation of adversarial sequences, achieving targeted and effective manipulation of model evaluations. Compared to handcraft prompt injection attacks, our method demonstrates superior efficacy, posing a significant challenge to the current security paradigms of LLM-based judgment systems. Through extensive experiments, we showcase the capability of JudgeDeceiver in altering decision outcomes across various cases, highlighting the vulnerability of LLM-as-a-Judge systems to the optimization-based prompt injection attack.
- Abstract(参考訳): LLM-as-a-Judgeは、大きな言語モデル(LLM)でテキスト情報を評価できる新しいソリューションである。
従来の研究では、従来の人間の評価に取って代わる優れた代替手段を提供する上で、LLMは優れた性能を発揮している。
しかしながら、これらのシステムによるインジェクション攻撃に対する堅牢性は、未解決の問題である。
本稿では,LLM-as-a-Judgeに合わせた新しい最適化ベースのプロンプトインジェクション攻撃であるJiceDeceiverを紹介する。
提案手法は,LLM-as-a-Judgeの意思決定プロセスを攻撃するための正確な最適化目標を定式化し,その最適化アルゴリズムを用いて,モデル評価のターゲットかつ効果的な操作を実現する。
本手法は,手技によるインジェクション攻撃と比較して優れた有効性を示し,LLMに基づく判定システムのセキュリティパラダイムにおいて重要な課題となっている。
広範にわたる実験を通じて,様々な事例における意思決定結果の変更におけるJiceDeceiverの能力を示し,LLM-as-a-Judgeシステムの脆弱性を最適化ベースのプロンプトインジェクションアタックに強調した。
関連論文リスト
- Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Exploring Backdoor Attacks against Large Language Model-based Decision Making [27.316115171846953]
大規模言語モデル(LLM)は、特定のアプリケーションで微調整された場合、意思決定タスクにおいて大きな可能性を示している。
これらのシステムは、微調整の段階でかなりの安全性とセキュリティ上のリスクにさらされている。
LLM対応意思決定システムに対するバックドアアタックの最初の包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Large Language Model-Based Evolutionary Optimizer: Reasoning with
elitism [1.1463861912335864]
大規模言語モデル(LLM)は、顕著な推論能力を示している。
本稿では,LLMが様々なシナリオにまたがるゼロショット最適化能力を有していることを主張する。
LLMを用いた数値最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T13:57:37Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Stealthy Attack on Large Language Model based Recommendation [24.51398285321322]
大規模言語モデル (LLM) はレコメンダシステム (RS) の進歩を推進している。
本研究では,レコメンデーションモデルにLSMを導入することで,項目のテキスト内容に重点を置いているため,新たなセキュリティ脆弱性が生じることを明らかにした。
攻撃者は、テストフェーズ中に単にテキストの内容を変更するだけで、アイテムの露出を大幅に向上させることができることを実証する。
論文 参考訳(メタデータ) (2024-02-18T16:51:02Z) - Are Large Language Models Good Prompt Optimizers? [65.48910201816223]
我々は,LLMに基づくPrompt Optimizationの実際のメカニズムを明らかにするために研究を行っている。
以上の結果から, LLMは, 反射中の誤差の真の原因を特定するのに苦慮し, 自己の事前知識に偏っていることが明らかとなった。
我々は、より制御可能な方法でターゲットモデルの振舞いを直接最適化する新しい「自動振舞い最適化」パラダイムを導入する。
論文 参考訳(メタデータ) (2024-02-03T09:48:54Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。