論文の概要: ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack
- arxiv url: http://arxiv.org/abs/2601.10173v1
- Date: Thu, 15 Jan 2026 08:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.054553
- Title: ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack
- Title(参考訳): ReasAlign: プロンプトインジェクション攻撃に対する安全性向上策
- Authors: Hao Li, Yankai Yang, G. Edward Suh, Ning Zhang, Chaowei Xiao,
- Abstract要約: 本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
- 参考スコア(独自算出の注目度): 52.17935054046577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have enabled the development of powerful agentic systems capable of automating complex workflows across various fields. However, these systems are highly vulnerable to indirect prompt injection attacks, where malicious instructions embedded in external data can hijack agent behavior. In this work, we present ReasAlign, a model-level solution to improve safety alignment against indirect prompt injection attacks. The core idea of ReasAlign is to incorporate structured reasoning steps to analyze user queries, detect conflicting instructions, and preserve the continuity of the user's intended tasks to defend against indirect injection attacks. To further ensure reasoning logic and accuracy, we introduce a test-time scaling mechanism with a preference-optimized judge model that scores reasoning steps and selects the best trajectory. Comprehensive evaluations across various benchmarks show that ReasAlign maintains utility comparable to an undefended model while consistently outperforming Meta SecAlign, the strongest prior guardrail. On the representative open-ended CyberSecEval2 benchmark, which includes multiple prompt-injected tasks, ReasAlign achieves 94.6% utility and only 3.6% ASR, far surpassing the state-of-the-art defensive model of Meta SecAlign (56.4% utility and 74.4% ASR). These results demonstrate that ReasAlign achieves the best trade-off between security and utility, establishing a robust and practical defense against prompt injection attacks in real-world agentic systems. Our code and experimental results could be found at https://github.com/leolee99/ReasAlign.
- Abstract(参考訳): 大規模言語モデル(LLM)により、様々な分野にわたる複雑なワークフローを自動化できる強力なエージェントシステムの開発が可能になった。
しかし、これらのシステムは間接的なインジェクション攻撃に対して非常に脆弱であり、外部データに埋め込まれた悪意のある命令はエージェントの動作をハイジャックする可能性がある。
本研究では,間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignの中核となる考え方は、ユーザクエリを分析し、競合する命令を検出し、間接的なインジェクション攻撃から守るために、ユーザの意図したタスクの継続性を維持する、構造化された推論ステップを組み込むことである。
推論の論理と精度をさらに高めるため、選好最適化判定モデルを用いたテスト時間スケーリング機構を導入し、推論ステップをスコアし、最適な軌道を選択する。
さまざまなベンチマークの総合的な評価によると、ReasAlignは未定義モデルに匹敵するユーティリティを維持しつつ、最強のガードレールであるMeta SecAlignを一貫して上回っている。
ReasAlignは94.6%のユーティリティとわずか3.6%のASRを達成し、Meta SecAlignの最先端防衛モデル(56.4%のユーティリティと74.4%のASR)をはるかに上回っている。
これらの結果は、ReasAlignがセキュリティとユーティリティの最良のトレードオフを実現し、現実世界のエージェントシステムにおける迅速なインジェクション攻撃に対する堅牢で実践的な防御を確立していることを示している。
私たちのコードと実験結果はhttps://github.com/leolee99/ReasAlign.comで確認できます。
関連論文リスト
- Securing AI Agents Against Prompt Injection Attacks [0.0]
本稿では,RAG対応AIエージェントのインジェクションリスク評価のためのベンチマークを提案する。
本フレームワークは,攻撃速度を73.2%から8.7%に削減し,94.3%のベースラインタスク性能を維持した。
論文 参考訳(メタデータ) (2025-11-19T10:00:54Z) - Indirect Prompt Injections: Are Firewalls All You Need, or Stronger Benchmarks? [58.48689960350828]
エージェントインタフェースにおけるシンプルでモジュール的で,モデルに依存しないディフェンスが,高ユーティリティで完全なセキュリティを実現することを示す。
ツール入力ファイアウォール(最小限のファイアウォール)とツール出力ファイアウォール(サニタイザ)の2つのファイアウォールをベースとしたディフェンスを採用している。
論文 参考訳(メタデータ) (2025-10-06T18:09:02Z) - PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance [10.105673138616483]
大規模言語モデル(LLM)は、仮想アシスタントから自律エージェントに至るまで、現実のアプリケーションにますます統合されている。
攻撃者がパラフレーズ、難読化、マルチタスクのインジェクション戦略で進化するにつれて、既存のベンチマークは、出現する脅威の全スペクトルを捉えるのに十分ではない。
PromptSleuthは,表面的特徴ではなくタスクレベルの意図を推論することで,迅速なインジェクションを検出するセマンティック指向の防衛フレームワークである。
論文 参考訳(メタデータ) (2025-08-28T15:19:07Z) - Bridging AI and Software Security: A Comparative Vulnerability Assessment of LLM Agent Deployment Paradigms [1.03121181235382]
大規模言語モデル(LLM)エージェントは、AI固有の旧来のソフトウェアドメインにまたがるセキュリティ上の脆弱性に直面している。
本研究では,Function Calling アーキテクチャと Model Context Protocol (MCP) デプロイメントパラダイムの比較評価を通じて,このギャップを埋める。
私たちは7つの言語モデルにわたる3,250の攻撃シナリオをテストし、AI固有の脅威とソフトウェア脆弱性の両方を対象として、シンプルで、構成され、連鎖した攻撃を評価しました。
論文 参考訳(メタデータ) (2025-07-08T18:24:28Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。