論文の概要: Prompt Injection as Role Confusion
- arxiv url: http://arxiv.org/abs/2603.12277v1
- Date: Sun, 22 Feb 2026 18:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.202074
- Title: Prompt Injection as Role Confusion
- Title(参考訳): ロール・コンフュージョンとしてのプロンプト・インジェクション
- Authors: Charles Ye, Jasmine Cui, Dylan Hadfield-Menell,
- Abstract要約: 言語モデルは、広範囲の安全訓練にもかかわらず、インジェクション攻撃に弱いままである。
我々は、モデルが「話す人」を内部的にどのように識別するかを捉えるために、新しいロールプローブを設計する。
ロールを模倣する信頼できないテキストがそのロールの権限を継承する。
- 参考スコア(独自算出の注目度): 6.379494871147752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models remain vulnerable to prompt injection attacks despite extensive safety training. We trace this failure to role confusion: models infer roles from how text is written, not where it comes from. We design novel role probes to capture how models internally identify "who is speaking." These reveal why prompt injection works: untrusted text that imitates a role inherits that role's authority. We test this insight by injecting spoofed reasoning into user prompts and tool outputs, achieving average success rates of 60% on StrongREJECT and 61% on agent exfiltration, across multiple open- and closed-weight models with near-zero baselines. Strikingly, the degree of internal role confusion strongly predicts attack success before generation begins. Our findings reveal a fundamental gap: security is defined at the interface but authority is assigned in latent space. More broadly, we introduce a unifying, mechanistic framework for prompt injection, demonstrating that diverse prompt-injection attacks exploit the same underlying role-confusion mechanism.
- Abstract(参考訳): 言語モデルは、広範囲の安全訓練にもかかわらず、インジェクション攻撃に弱いままである。
モデルは、それがどこから来たのかではなく、テキストの書き方から役割を推測する。
我々は、モデルが「話す人」を内部的にどのように識別するかを捉えるために、新しいロールプローブを設計する。
ロールを模倣する信頼できないテキストがそのロールの権限を継承する。
我々は、ユーザプロンプトとツールアウトプットにスプーフ推論を注入し、StrongREJECTで60%、エージェントの除去で61%の成功率を達成し、ほぼゼロのベースラインを持つ複数のオープンウェイトモデルとクローズドウェイトモデルにまたがって、この知見を検証した。
厳密には、内部の役割の混乱の程度は、生成が始まる前に攻撃の成功を強く予測する。
セキュリティはインターフェースで定義されているが、権限は潜在空間で割り当てられている。
より広範に、インパルス注入のための統一的な機構を導入し、多様なインジェクション攻撃が、同じ基盤となるロール・コンフュージョン機構を利用することを示した。
関連論文リスト
- Intentional Deception as Controllable Capability in LLM Agents [0.0]
本稿では,マルチエージェントシステムにおいて,意図的騙しを工学的能力として体系的に研究する。
本研究では,ターゲットエージェントの特徴を推定し,その信念や動機に反する行動に対して,意図的反応を操る2段階のシステムについて検討する。
認知的介入は、一様分布ではなく、特定の行動プロファイルに集中する差分効果を生じさせる。
論文 参考訳(メタデータ) (2026-03-08T23:48:49Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance [10.105673138616483]
大規模言語モデル(LLM)は、仮想アシスタントから自律エージェントに至るまで、現実のアプリケーションにますます統合されている。
攻撃者がパラフレーズ、難読化、マルチタスクのインジェクション戦略で進化するにつれて、既存のベンチマークは、出現する脅威の全スペクトルを捉えるのに十分ではない。
PromptSleuthは,表面的特徴ではなくタスクレベルの意図を推論することで,迅速なインジェクションを検出するセマンティック指向の防衛フレームワークである。
論文 参考訳(メタデータ) (2025-08-28T15:19:07Z) - TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [92.26240528996443]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。
提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。
提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文 参考訳(メタデータ) (2025-07-18T06:23:31Z) - Separator Injection Attack: Uncovering Dialogue Biases in Large Language Models Caused by Role Separators [18.00739443633401]
役割セパレータは、会話で異なる参加者を区別するために使用される。
ロールの誤用はインジェクション攻撃を引き起こす可能性があるため、モデルの振る舞いをユーザの意図と簡単に間違える可能性がある。
我々は,ロールセパレータに基づく新しい正弦波攻撃であるセパレータインジェクションアタック(SIA)を開発した。
論文 参考訳(メタデータ) (2025-04-08T05:20:56Z) - Misaligned Roles, Misplaced Images: Structural Input Perturbations Expose Multimodal Alignment Blind Spots [6.302734977940601]
本稿では,ユーザとアシスタント間の役割混乱を利用した対人攻撃のクラスであるロール・モダリティ・アタック(RMA)を紹介する。
RMAはクエリ自体を変更することなく入力構造を操作する。
本稿では,入力の急激な摂動に対してモデルを頑健にするための逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T03:54:36Z) - Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。
フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文 参考訳(メタデータ) (2023-10-19T15:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。