論文の概要: Efficient Universal Goal Hijacking with Semantics-guided Prompt Organization
- arxiv url: http://arxiv.org/abs/2405.14189v2
- Date: Fri, 30 May 2025 14:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.401327
- Title: Efficient Universal Goal Hijacking with Semantics-guided Prompt Organization
- Title(参考訳): 意味論的指導型プロンプト組織を用いた効率的なユニバーサルゴールハイジャック
- Authors: Yihao Huang, Chong Wang, Xiaojun Jia, Qing Guo, Felix Juefei-Xu, Jian Zhang, Geguang Pu, Yang Liu,
- Abstract要約: ユニバーサルゴールハイジャック(Universal goal hijacking)は、LSMが任意の通常のユーザープロンプトに対してターゲットの悪意のある応答を返すよう強制するプロンプトインジェクション攻撃の一種である。
従来の手法は、煩雑で時間を要する一方で、高い攻撃性能を達成する。
本稿では,効率的な最適化アルゴリズムと2つの意味指導型組織戦略を組み込んだPOUGHという手法を提案する。
- 参考スコア(独自算出の注目度): 30.56428628397079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal goal hijacking is a kind of prompt injection attack that forces LLMs to return a target malicious response for arbitrary normal user prompts. The previous methods achieve high attack performance while being too cumbersome and time-consuming. Also, they have concentrated solely on optimization algorithms, overlooking the crucial role of the prompt. To this end, we propose a method called POUGH that incorporates an efficient optimization algorithm and two semantics-guided prompt organization strategies. Specifically, our method starts with a sampling strategy to select representative prompts from a candidate pool, followed by a ranking strategy that prioritizes them. Given the sequentially ranked prompts, our method employs an iterative optimization algorithm to generate a fixed suffix that can concatenate to arbitrary user prompts for universal goal hijacking. Experiments conducted on four popular LLMs and ten types of target responses verified the effectiveness.
- Abstract(参考訳): ユニバーサルゴールハイジャック(Universal goal hijacking)は、LSMが任意の通常のユーザープロンプトに対してターゲットの悪意のある応答を返すよう強制するプロンプトインジェクション攻撃の一種である。
従来の手法は、煩雑で時間を要するため、高い攻撃性能を実現する。
また、彼らは最適化アルゴリズムのみに集中しており、プロンプトの重要な役割を見下ろしています。
そこで本研究では,効率的な最適化アルゴリズムと2つの意味指導型組織戦略を組み込んだPOUGHという手法を提案する。
具体的には、まず候補プールから代表プロンプトを選択するためのサンプリング戦略と、それらを優先順位付けするランキング戦略から始める。
逐次ランク付けされたプロンプトを前提として,任意のユーザプロンプトに結合可能な固定接尾辞を生成するために,反復最適化アルゴリズムを用いる。
4種類のLLMと10種類のターゲット応答を用いて実験を行った結果,有効性が確認された。
関連論文リスト
- HPSS: Heuristic Prompting Strategy Search for LLM Evaluators [81.09765876000208]
我々はHuristic Prompting Strategy Search (HPSS)と呼ばれる新しい自動プロンプト戦略最適化手法を提案する。
遺伝的アルゴリズムにインスパイアされ、HPSSは反復探索を行い、評価者に対する適切な手順を見つける。
4つの評価課題にわたる大規模な実験により,HPSSの有効性が示された。
論文 参考訳(メタデータ) (2025-02-18T16:46:47Z) - Meta-Prompt Optimization for LLM-Based Sequential Decision Making [24.050701239196876]
大規模言語モデル(LLM)は、シーケンシャルな意思決定タスクを解決するエージェントとして採用されている。
メタプロンプトにおけるタスク記述とメタインストラクションを自動的に最適化する,プロンプト最適化(EXPO)のためのEXPonential-weightアルゴリズムを提案する。
また、EXPOを拡張して、メタプロンプトの例を最適化し、パフォーマンスをさらに向上する。
論文 参考訳(メタデータ) (2025-02-02T09:22:39Z) - Refining Answer Distributions for Improved Large Language Model Reasoning [24.67507932821155]
本稿では,Large Language Models (LLMs) の推論能力を高めるための,新しいアルゴリズムフレームワークであるRefined Answer Distributionsを提案する。
我々のアプローチは、モンテカルロ近似(英語版)を形成するための反復的なサンプリング戦略と見なすことができる。
論文 参考訳(メタデータ) (2024-12-17T19:45:53Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Pseudo-Conversation Injection for LLM Goal Hijacking [3.574664325523221]
ゴールハイジャックでは、攻撃者はユーザーのプロンプトに慎重に作られた悪意のある接尾辞を付加する。
Pseudo-Conversation Injectionと呼ばれる新しいゴールハイジャック攻撃手法を導入する。
本稿では,擬似会話をターゲットとした擬似会話,普遍的擬似会話,ロバスト擬似会話という3つの擬似会話構築戦略を提案する。
論文 参考訳(メタデータ) (2024-10-31T06:58:34Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。