論文の概要: SafeHarness: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment
- arxiv url: http://arxiv.org/abs/2604.13630v1
- Date: Wed, 15 Apr 2026 08:59:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.456891
- Title: SafeHarness: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment
- Title(参考訳): SafeHarness: LLMベースのエージェントデプロイのためのライフサイクル統合セキュリティアーキテクチャ
- Authors: Xixun Lin, Yang Liu, Yancheng Chen, Yongxuan Wu, Yucheng Ning, Yilong Liu, Nan Sun, Shun Zhang, Bin Chong, Chuan Zhou, Yanan Cao, Li Guo,
- Abstract要約: セーフハーネス(Safeharness)は、4つの防衛レイヤがエージェントライフサイクルに直接織られるセキュリティアーキテクチャである。
ベンチマークデータセットの安全性を、多様なハーネス構成で評価する。
- 参考スコア(独自算出の注目度): 19.947119280467934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of large language model (LLM) agents depends critically on the execution harness, the system layer that orchestrates tool use, context management, and state persistence. Yet this same architectural centrality makes the harness a high-value attack surface: a single compromise at the harness level can cascade through the entire execution pipeline. We observe that existing security approaches suffer from structural mismatch, leaving them blind to harness-internal state and unable to coordinate across the different phases of agent operation. In this paper, we introduce \safeharness{}, a security architecture in which four proposed defense layers are woven directly into the agent lifecycle to address above significant limitations: adversarial context filtering at input processing, tiered causal verification at decision making, privilege-separated tool control at action execution, and safe rollback with adaptive degradation at state update. The proposed cross-layer mechanisms tie these layers together, escalating verification rigor, triggering rollbacks, and tightening tool privileges whenever sustained anomalies are detected. We evaluate \safeharness{} on benchmark datasets across diverse harness configurations, comparing against four security baselines under five attack scenarios spanning six threat categories. Compared to the unprotected baseline, \safeharness{} achieves an average reduction of approximately 38\% in UBR and 42\% in ASR, substantially lowering both the unsafe behavior rate and the attack success rate while preserving core task utility.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントのパフォーマンスは、実行ハーネス、ツールの使用をオーケストレーションするシステム層、コンテキスト管理、状態永続化に大きく依存する。
ハーネスレベルで1つの妥協は、実行パイプライン全体を通してカスケードすることができる。
我々は,既存のセキュリティアプローチが構造的ミスマッチに悩まされていることを観察する。
本稿では,4つの防衛レイヤをエージェントライフサイクルに直接織り込むセキュリティアーキテクチャである \safeharness{} を紹介し,入力処理における逆コンテキストフィルタリング,意思決定における相関因果検証,アクション実行時の特権分離ツール制御,状態更新時の適応劣化による安全なロールバックを提案する。
提案するクロス層機構は, これらの層を結合し, 検証リガーのエスカレーション, ロールバックのトリガー, 持続異常検出時の工具特権の強化を行う。
6つの脅威カテゴリにまたがる5つの攻撃シナリオにおける4つのセキュリティベースラインと比較して、さまざまなハーネス構成のベンチマークデータセット上で‘safeharness{}’を評価した。
無防備なベースラインと比較して、 \safeharness{} は UBR の約 38 % と ASR の約 42 % を減少させ、コアタスクユーティリティを保ちながら、安全でない行動速度と攻撃成功率の両方を著しく低下させる。
関連論文リスト
- HomeGuard: VLM-based Embodied Safeguard for Identifying Contextual Risk in Household Task [42.665798473119516]
CG-CoT(Context-Guided Chain-of-Thought)を特徴とするアーキテクチャ非依存型セーフガードを提案する。
CG-CoTは、リスクアセスメントをアクティブな知覚に分解し、相互作用対象や関連する空間近傍への注意を順次固定する。
実験により、我々のモデルであるHomeGuardは安全性を大幅に向上し、ベースモデルと比較してリスクマッチ率を30%以上改善することが示された。
論文 参考訳(メタデータ) (2026-03-15T13:09:43Z) - SCAFFOLD-CEGIS: Preventing Latent Security Degradation in LLM-Driven Iterative Code Refinement [12.69450437027072]
マルチオブジェクト最適化における仕様のドリフトは、連続する繰り返しに対してセキュリティを徐々に低下させます。
本稿では,セキュリティ制約を暗黙的なプロンプトから明示的な検証可能な制約に変換するSCAFFOLD-CEGISフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-09T15:54:18Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - Agentic Moderation: Multi-Agent Design for Safer Vision-Language Models [17.28260523039769]
本稿では,Jailbreak攻撃に対するマルチモーダルシステムを保護するために,特殊エージェントを活用するモデル非依存フレームワークであるAgentic Moderationを紹介する。
提案手法は,攻撃成功率(ASR)を7-19%削減し,安定な非フォロー率(NF)を維持し,拒絶率(RR)を4-20%改善する。
エージェントアーキテクチャの柔軟性と推論能力を活用することで、Agentic Moderationはモジュール化され、スケーラブルで、きめ細かい安全対策を提供する。
論文 参考訳(メタデータ) (2025-10-29T05:23:24Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - SafeMind: Benchmarking and Mitigating Safety Risks in Embodied LLM Agents [7.975014390527644]
大規模言語モデル(LLM)を利用したエージェントは、高度な計画能力を継承するが、物理世界との直接的な相互作用は安全上の脆弱性を露呈する。
SafeMindBenchは、4つのタスクカテゴリ(Instr-Risk、Env-Risk、Order-Fix、Req-Align)にまたがる5,558のサンプルを備えたマルチモーダルベンチマークである。
SafeMindAgentはモジュール型Planner-Executorアーキテクチャで、3つのケースドセーフモジュールを統合し、安全性制約を推論プロセスに組み込む。
論文 参考訳(メタデータ) (2025-09-30T07:24:04Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。