論文の概要: Stop Fixating on Prompts: Reasoning Hijacking and Constraint Tightening for Red-Teaming LLM Agents
- arxiv url: http://arxiv.org/abs/2604.05549v1
- Date: Tue, 07 Apr 2026 07:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.701583
- Title: Stop Fixating on Prompts: Reasoning Hijacking and Constraint Tightening for Red-Teaming LLM Agents
- Title(参考訳): プロンプトの固定を停止する:再結合型LDM剤のハイジャックと拘束タイニング
- Authors: Yanxu Mao, Peipei Liu, Tiehan Cui, Congying Liu, Mingzhe Xing, Datao You,
- Abstract要約: JailAgentは、トリガー抽出、Reasoning Hijacking、Constraint Tighteningの3つの重要なステージで、エージェントの推論軌道とメモリ検索を暗黙的に操作する。
JailAgentは、正確なトリガー識別、リアルタイム適応機構、最適化された目的関数を通じて、クロスモデルおよびクロスシナリオ環境での優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 8.274913538875387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the widespread application of LLM-based agents across various domains, their complexity has introduced new security threats. Existing red-team methods mostly rely on modifying user prompts, which lack adaptability to new data and may impact the agent's performance. To address the challenge, this paper proposes the JailAgent framework, which completely avoids modifying the user prompt. Specifically, it implicitly manipulates the agent's reasoning trajectory and memory retrieval with three key stages: Trigger Extraction, Reasoning Hijacking, and Constraint Tightening. Through precise trigger identification, real-time adaptive mechanisms, and an optimized objective function, JailAgent demonstrates outstanding performance in cross-model and cross-scenario environments.
- Abstract(参考訳): 様々なドメインにLLMベースのエージェントが広く適用されているため、その複雑さは新たなセキュリティ脅威をもたらしている。
既存のRed-teamメソッドは、主にユーザープロンプトの変更に依存しており、新しいデータへの適応性に欠け、エージェントのパフォーマンスに影響を及ぼす可能性がある。
この課題に対処するために,ユーザプロンプトの変更を完全に回避した JailAgent フレームワークを提案する。
具体的には、トリガー抽出、Reasoning Hijacking、Constraint Tighteningの3つの重要なステージで、エージェントの推論軌跡とメモリ検索を暗黙的に操作する。
JailAgentは、正確なトリガー識別、リアルタイム適応機構、最適化された目的関数を通じて、クロスモデルおよびクロスシナリオ環境での優れたパフォーマンスを示す。
関連論文リスト
- SkillJect: Automating Stealthy Skill-Based Prompt Injection for Coding Agents with Trace-Driven Closed-Loop Refinement [120.52289344734415]
エージェントスキルに適したステルスプロンプトインジェクションのための自動フレームワークを提案する。
フレームワークは、明示的なステルス制約の下でインジェクションスキルを合成するアタックエージェント、インジェクションされたスキルを使用してタスクを実行するコードエージェント、アクショントレースをログする評価エージェントの3つのエージェントでクローズドループを形成する。
本手法は,現実的な環境下で高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2026-02-15T16:09:48Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - QueryIPI: Query-agnostic Indirect Prompt Injection on Coding Agents [13.098854359317523]
コーディングエージェントのための最初のクエリ非依存IPI手法であるQueryIPIを提案する。
リークされた内部プロンプトによって通知される反復的かつプロンプトベースのプロセスを通じて、悪意のあるツール記述を洗練する。
5つのシミュレーションエージェントの実験は、QueryIPIが最大で87%の成功を達成していることを示している。
論文 参考訳(メタデータ) (2025-10-27T07:04:08Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - DrunkAgent: Stealthy Memory Corruption in LLM-Powered Recommender Agents [31.542621203252295]
大規模言語モデル (LLM) を利用したエージェントは、リコメンデータシステム (RS) でますます使われている。
本稿では,LSMを用いたリコメンデータエージェントにおけるメモリベースの脆弱性について,初めて体系的に検討する。
我々はDrunkAgentという新しいブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-31T07:35:40Z) - UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning [17.448966928905733]
外部ツールを備えた大規模言語モデル(LLM)エージェントは、複雑なタスクに対してますます強力になっている。
UDoraはLDMエージェント用に設計された統一されたレッド・チーム・フレームワークで、エージェントの推論プロセスを動的にハイジャックし、悪意ある振る舞いを強制する。
論文 参考訳(メタデータ) (2025-02-28T21:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。