論文の概要: Are My Optimized Prompts Compromised? Exploring Vulnerabilities of LLM-based Optimizers
- arxiv url: http://arxiv.org/abs/2510.14381v1
- Date: Thu, 16 Oct 2025 07:28:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.75835
- Title: Are My Optimized Prompts Compromised? Exploring Vulnerabilities of LLM-based Optimizers
- Title(参考訳): 私の最適化プロンプトは妥協しているか? LLMによる最適化の脆弱性を探る
- Authors: Andrew Zhao, Reshmi Ghosh, Vitor Carvalho, Emily Lawton, Keegan Hines, Gao Huang, Jack W. Stokes,
- Abstract要約: LLMに基づく即時最適化における毒性リスクの最初の体系的解析について述べる。
システムは、入力されたクエリよりも、操作されたフィードバックに対してかなり脆弱である。
本報告では, フェール・リワードの$Delta$ASR を, 実用性を低下させることなく 0.23 から 0.07 に削減する軽量ハイライトディフェンスを提案する。
- 参考スコア(独自算出の注目度): 21.207996237794855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) systems now underpin everyday AI applications such as chatbots, computer-use assistants, and autonomous robots, where performance often depends on carefully designed prompts. LLM-based prompt optimizers reduce that effort by iteratively refining prompts from scored feedback, yet the security of this optimization stage remains underexamined. We present the first systematic analysis of poisoning risks in LLM-based prompt optimization. Using HarmBench, we find systems are substantially more vulnerable to manipulated feedback than to injected queries: feedback-based attacks raise attack success rate (ASR) by up to $\Delta$ASR = 0.48. We introduce a simple fake-reward attack that requires no access to the reward model and significantly increases vulnerability, and we propose a lightweight highlighting defense that reduces the fake-reward $\Delta$ASR from 0.23 to 0.07 without degrading utility. These results establish prompt optimization pipelines as a first-class attack surface and motivate stronger safeguards for feedback channels and optimization frameworks.
- Abstract(参考訳): 大規模言語モデル(LLM)システムは、チャットボット、コンピュータ利用アシスタント、自律ロボットなどの日常的なAIアプリケーションを支える。
LLMベースのプロンプトオプティマイザは、得られたフィードバックからプロンプトを反復的に精製することでその労力を減らすが、この最適化ステージのセキュリティは過小評価されている。
LLMに基づく即時最適化における毒性リスクの最初の体系的解析について述べる。
HarmBenchを使用することで、フィードバックベースの攻撃は最大$\Delta$ASR = 0.48の攻撃成功率(ASR)を上昇させる。
我々は、報酬モデルへのアクセスを必要とせず、脆弱性を大幅に増大させる単純なフェイクリワード攻撃を導入し、フェイクリワードの$\Delta$ASRを0.23から0.07に減らす軽量のハイライト防御を提案する。
これらの結果は、ファーストクラスアタックサーフェスとして即時最適化パイプラインを確立し、フィードバックチャネルと最適化フレームワークのより強力な保護を動機付ける。
関連論文リスト
- AEGIS : Automated Co-Evolutionary Framework for Guarding Prompt Injections Schema [39.44407870355891]
AEGISは,プロンプトインジェクションのガードのための自動共進化フレームワークである。
攻撃プロンプトと防御プロンプトは、勾配のような自然言語プロンプト最適化技術を用いて互いに反復的に最適化される。
本研究では,実世界のアサイングレーティングデータセットを用いたインジェクション攻撃の評価を行い,本手法が既存のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-08-27T12:25:45Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Enhancing Security in LLM Applications: A Performance Evaluation of Early Detection Systems [1.03590082373586]
迅速なインジェクション攻撃では、攻撃者はシステム命令を悪意を持って操作し、システムの機密性を侵害する。
本研究では,早期インジェクション検出システムの性能について検討し,様々なオープンソースソリューションで実装された技術の検出性能に着目した。
本研究は, 突発的漏洩検出手法の異なる解析方法と, それらの手法を実装した複数の検出方法の比較分析を行った。
論文 参考訳(メタデータ) (2025-06-23T20:39:43Z) - Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts [28.043964124611026]
本研究では,LLMにおけるシステムプロンプトの適応を学習することで,大規模言語モデル(LLM)を保護するための新しいアプローチを提案する。
我々は、最初の$textbfsys$temプロンプトを LLM 入力埋め込み空間のより堅牢なシステムプロンプトに更新するtrans$textbfformer$モデルである $textbfSysformer$を提案する。
我々は、SysformerがLLMの堅牢性を大幅に向上させ、有害なプロンプトの拒絶率を最大80ドルまで引き上げると同時に、安全プロンプトのコンプライアンスを最大90%まで向上させることを示した。
論文 参考訳(メタデータ) (2025-06-18T05:48:05Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Joint Optimization of Prompt Security and System Performance in Edge-Cloud LLM Systems [15.058369477125893]
大規模言語モデル(LLM)は人間の生活を著しく促進し、迅速なエンジニアリングによりこれらのモデルの効率が向上した。
近年、エンジニアリングを駆使した攻撃が急速に増加し、プライバシーの漏洩、レイテンシの増大、システムリソースの浪費といった問題が発生している。
我々は,エッジクラウド LLM (EC-LLM) システムにおけるセキュリティ,サービスレイテンシ,システムリソースの最適化を,様々な攻撃の下で共同で検討する。
論文 参考訳(メタデータ) (2025-01-30T14:33:49Z) - AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
大規模言語モデル(LLM)は、不適切または有害なコンテンツの生成につながるジェイルブレイク攻撃に対して脆弱である。
本稿では,AdvPrompter という別の LLM を用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
論文 参考訳(メタデータ) (2024-04-21T22:18:13Z) - Optimization-based Prompt Injection Attack to LLM-as-a-Judge [69.27584941296875]
LLM-as-a-Judgeは、大きな言語モデル(LLM)を使用して、ある質問に対する候補セットから最適な応答を選択する。
LLM-as-a-Judgeに対する最適化に基づくプロンプトインジェクション攻撃であるJiceDeceiverを提案する。
評価の結果,JiceDeceiveは既存のプロンプトインジェクション攻撃よりも効果的であることがわかった。
論文 参考訳(メタデータ) (2024-03-26T13:58:00Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。