論文の概要: Are My Optimized Prompts Compromised? Exploring Vulnerabilities of LLM-based Optimizers
- arxiv url: http://arxiv.org/abs/2510.14381v1
- Date: Thu, 16 Oct 2025 07:28:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.75835
- Title: Are My Optimized Prompts Compromised? Exploring Vulnerabilities of LLM-based Optimizers
- Title(参考訳): 私の最適化プロンプトは妥協しているか? LLMによる最適化の脆弱性を探る
- Authors: Andrew Zhao, Reshmi Ghosh, Vitor Carvalho, Emily Lawton, Keegan Hines, Gao Huang, Jack W. Stokes,
- Abstract要約: LLMに基づく即時最適化における毒性リスクの最初の体系的解析について述べる。
システムは、入力されたクエリよりも、操作されたフィードバックに対してかなり脆弱である。
本報告では, フェール・リワードの$Delta$ASR を, 実用性を低下させることなく 0.23 から 0.07 に削減する軽量ハイライトディフェンスを提案する。
- 参考スコア(独自算出の注目度): 21.207996237794855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) systems now underpin everyday AI applications such as chatbots, computer-use assistants, and autonomous robots, where performance often depends on carefully designed prompts. LLM-based prompt optimizers reduce that effort by iteratively refining prompts from scored feedback, yet the security of this optimization stage remains underexamined. We present the first systematic analysis of poisoning risks in LLM-based prompt optimization. Using HarmBench, we find systems are substantially more vulnerable to manipulated feedback than to injected queries: feedback-based attacks raise attack success rate (ASR) by up to $\Delta$ASR = 0.48. We introduce a simple fake-reward attack that requires no access to the reward model and significantly increases vulnerability, and we propose a lightweight highlighting defense that reduces the fake-reward $\Delta$ASR from 0.23 to 0.07 without degrading utility. These results establish prompt optimization pipelines as a first-class attack surface and motivate stronger safeguards for feedback channels and optimization frameworks.
- Abstract(参考訳): 大規模言語モデル(LLM)システムは、チャットボット、コンピュータ利用アシスタント、自律ロボットなどの日常的なAIアプリケーションを支える。
LLMベースのプロンプトオプティマイザは、得られたフィードバックからプロンプトを反復的に精製することでその労力を減らすが、この最適化ステージのセキュリティは過小評価されている。
LLMに基づく即時最適化における毒性リスクの最初の体系的解析について述べる。
HarmBenchを使用することで、フィードバックベースの攻撃は最大$\Delta$ASR = 0.48の攻撃成功率(ASR)を上昇させる。
我々は、報酬モデルへのアクセスを必要とせず、脆弱性を大幅に増大させる単純なフェイクリワード攻撃を導入し、フェイクリワードの$\Delta$ASRを0.23から0.07に減らす軽量のハイライト防御を提案する。
これらの結果は、ファーストクラスアタックサーフェスとして即時最適化パイプラインを確立し、フィードバックチャネルと最適化フレームワークのより強力な保護を動機付ける。
関連論文リスト
- ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization [0.0]
本稿では,シールド付加によるシステムプロンプト硬化のための新しいフレームワークを提案する。
我々は、LSM-as-optimizerを利用してShiELDの空間を探索し、敵攻撃の組から導かれる漏洩量を最小限に抑える。
最適化されたShielDは、包括的な抽出攻撃に対する急激なリークを著しく低減することを示した。
論文 参考訳(メタデータ) (2025-11-20T10:25:45Z) - AEGIS : Automated Co-Evolutionary Framework for Guarding Prompt Injections Schema [39.44407870355891]
AEGISは,プロンプトインジェクションのガードのための自動共進化フレームワークである。
攻撃プロンプトと防御プロンプトは、勾配のような自然言語プロンプト最適化技術を用いて互いに反復的に最適化される。
本研究では,実世界のアサイングレーティングデータセットを用いたインジェクション攻撃の評価を行い,本手法が既存のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-08-27T12:25:45Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Enhancing Security in LLM Applications: A Performance Evaluation of Early Detection Systems [1.03590082373586]
迅速なインジェクション攻撃では、攻撃者はシステム命令を悪意を持って操作し、システムの機密性を侵害する。
本研究では,早期インジェクション検出システムの性能について検討し,様々なオープンソースソリューションで実装された技術の検出性能に着目した。
本研究は, 突発的漏洩検出手法の異なる解析方法と, それらの手法を実装した複数の検出方法の比較分析を行った。
論文 参考訳(メタデータ) (2025-06-23T20:39:43Z) - Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts [28.043964124611026]
本研究では,LLMにおけるシステムプロンプトの適応を学習することで,大規模言語モデル(LLM)を保護するための新しいアプローチを提案する。
我々は、最初の$textbfsys$temプロンプトを LLM 入力埋め込み空間のより堅牢なシステムプロンプトに更新するtrans$textbfformer$モデルである $textbfSysformer$を提案する。
我々は、SysformerがLLMの堅牢性を大幅に向上させ、有害なプロンプトの拒絶率を最大80ドルまで引き上げると同時に、安全プロンプトのコンプライアンスを最大90%まで向上させることを示した。
論文 参考訳(メタデータ) (2025-06-18T05:48:05Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Joint Optimization of Prompt Security and System Performance in Edge-Cloud LLM Systems [15.058369477125893]
大規模言語モデル(LLM)は人間の生活を著しく促進し、迅速なエンジニアリングによりこれらのモデルの効率が向上した。
近年、エンジニアリングを駆使した攻撃が急速に増加し、プライバシーの漏洩、レイテンシの増大、システムリソースの浪費といった問題が発生している。
我々は,エッジクラウド LLM (EC-LLM) システムにおけるセキュリティ,サービスレイテンシ,システムリソースの最適化を,様々な攻撃の下で共同で検討する。
論文 参考訳(メタデータ) (2025-01-30T14:33:49Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
大規模言語モデル(LLM)は、不適切または有害なコンテンツの生成につながるジェイルブレイク攻撃に対して脆弱である。
本稿では,AdvPrompter という別の LLM を用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
論文 参考訳(メタデータ) (2024-04-21T22:18:13Z) - Optimization-based Prompt Injection Attack to LLM-as-a-Judge [69.27584941296875]
LLM-as-a-Judgeは、大きな言語モデル(LLM)を使用して、ある質問に対する候補セットから最適な応答を選択する。
LLM-as-a-Judgeに対する最適化に基づくプロンプトインジェクション攻撃であるJiceDeceiverを提案する。
評価の結果,JiceDeceiveは既存のプロンプトインジェクション攻撃よりも効果的であることがわかった。
論文 参考訳(メタデータ) (2024-03-26T13:58:00Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。