論文の概要: Semantic-guided Prompt Organization for Universal Goal Hijacking against LLMs
- arxiv url: http://arxiv.org/abs/2405.14189v1
- Date: Thu, 23 May 2024 05:31:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 18:55:13.760117
- Title: Semantic-guided Prompt Organization for Universal Goal Hijacking against LLMs
- Title(参考訳): LLMに対するユニバーサルゴールハイジャックのための意味誘導型プロンプト機構
- Authors: Yihao Huang, Chong Wang, Xiaojun Jia, Qing Guo, Felix Juefei-Xu, Jian Zhang, Geguang Pu, Yang Liu,
- Abstract要約: 本稿では,意味誘導型プロンプト処理戦略を取り入れたPOUGHと呼ばれる汎用ゴールハイジャック手法を提案する。
この方法はまず、候補プールから代表プロンプトを選択するためのサンプリング戦略から始まり、次にプロンプトを優先順位付けするランキング戦略が続く。
4種類の人気言語モデルと10種類のターゲット応答を用いた実験により,本手法の有効性が検証された。
- 参考スコア(独自算出の注目度): 30.56428628397079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rising popularity of Large Language Models (LLMs), assessing their trustworthiness through security tasks has gained critical importance. Regarding the new task of universal goal hijacking, previous efforts have concentrated solely on optimization algorithms, overlooking the crucial role of the prompt. To fill this gap, we propose a universal goal hijacking method called POUGH that incorporates semantic-guided prompt processing strategies. Specifically, the method starts with a sampling strategy to select representative prompts from a candidate pool, followed by a ranking strategy that prioritizes the prompts. Once the prompts are organized sequentially, the method employs an iterative optimization algorithm to generate the universal fixed suffix for the prompts. Experiments conducted on four popular LLMs and ten types of target responses verified the effectiveness of our method.
- Abstract(参考訳): LLM(Large Language Models)の人気が高まり、セキュリティタスクによる信頼性の評価が重要になった。
ゴールハイジャックという新たな課題に関して、これまでの取り組みは最適化アルゴリズムのみに集中しており、プロンプトの重要な役割を見落としている。
このギャップを埋めるために,意味誘導型プロンプト処理戦略を取り入れたPOUGHと呼ばれる汎用ゴールハイジャック手法を提案する。
具体的には、候補プールから代表プロンプトを選択するためのサンプリング戦略から始まり、次にそのプロンプトを優先順位付けするランキング戦略が続く。
逐次的にプロンプトを整理すると、そのプロンプトの普遍的な固定接尾辞を生成するために反復最適化アルゴリズムが用いられる。
4種類のLLMと10種類のターゲット応答を用いて実験を行い,本手法の有効性を検証した。
関連論文リスト
- Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Pseudo-Conversation Injection for LLM Goal Hijacking [3.574664325523221]
ゴールハイジャックでは、攻撃者はユーザーのプロンプトに慎重に作られた悪意のある接尾辞を付加する。
Pseudo-Conversation Injectionと呼ばれる新しいゴールハイジャック攻撃手法を導入する。
本稿では,擬似会話をターゲットとした擬似会話,普遍的擬似会話,ロバスト擬似会話という3つの擬似会話構築戦略を提案する。
論文 参考訳(メタデータ) (2024-10-31T06:58:34Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization [73.7779735046424]
異なるプロンプトを異なるLarge Language Models (LLM) に適応させることで,NLP の様々な下流タスクにまたがる機能の向上が期待できる。
次に、下流タスクにおける各LLMに対して、元のプロンプトを最適化するモデル適応プロンプト(MAPO)手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:39:59Z) - Efficient Prompting Methods for Large Language Models: A Survey [50.171011917404485]
プロンプティングは、特定の自然言語処理タスクに大規模言語モデル(LLM)を適用するための主流パラダイムとなっている。
このアプローチは、LLMの振る舞いをガイドし、制御するために、モデル推論と人間の努力のさらなる計算負担をもたらす。
本稿では, 今後の研究の方向性を明らかにするため, 促進, 効率的な促進のための進歩を概説する。
論文 参考訳(メタデータ) (2024-04-01T12:19:08Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。