論文の概要: Fault-Tolerant Sandboxing for AI Coding Agents: A Transactional Approach to Safe Autonomous Execution
- arxiv url: http://arxiv.org/abs/2512.12806v1
- Date: Sun, 14 Dec 2025 19:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.451497
- Title: Fault-Tolerant Sandboxing for AI Coding Agents: A Transactional Approach to Safe Autonomous Execution
- Title(参考訳): AI符号化エージェントのためのフォールトトレラントサンドボックス:安全な自律実行のためのトランザクションアプローチ
- Authors: Boyang Yan,
- Abstract要約: 本稿では,これらのリスクを軽減するために設計されたフォールトトレラントサンドボックスフレームワークを提案する。
我々は、アトミックトランザクションにおけるエージェントアクションのラップは、許容できるレイテンシで安全性を保証することができると仮定する。
実験により、高リスクコマンドに対する100%のインターセプション率と、ロールバック失敗状態における100%の成功率が示された。
- 参考スコア(独自算出の注目度): 1.3537117504260623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transition of Large Language Models (LLMs) from passive code generators to autonomous agents introduces significant safety risks, specifically regarding destructive commands and inconsistent system states. Existing commercial solutions often prioritize interactive user safety, enforcing authentication barriers that break the headless loops required for true autonomy. This paper presents a Fault-Tolerant Sandboxing framework designed to mitigate these risks through a policy-based interception layer and a transactional filesystem snapshot mechanism. We hypothesize that wrapping agent actions in atomic transactions can guarantee safety with acceptable latency, outperforming the heavy initialization overhead of containers or the interactive friction of commercial CLIs. We validated this approach by deploying the Minimind-MoE LLM served via nano-vllm on a custom Proxmox-based testbed utilizing EVPN/VXLAN isolation. Experimental results demonstrate a 100\% interception rate for high-risk commands and a 100\% success rate in rolling back failed states. Crucially, our prototype incurs only a 14.5\% performance overhead (approx. 1.8s) per transaction. In contrast, benchmarking against the Gemini CLI sandbox revealed that it requires interactive authentication ("Sign in"), rendering it unusable for headless, autonomous agent workflows.
- Abstract(参考訳): 受動的コードジェネレータから自律エージェントへの大きな言語モデル(LLM)の移行は、特に破壊的なコマンドや一貫性のないシステム状態に関する重大な安全リスクをもたらす。
既存の商用ソリューションは、真の自律性に必要なヘッドレスループを壊す認証障壁を強制し、対話的なユーザの安全性を優先することが多い。
本稿では、ポリシーベースのインターセプション層とトランザクションファイルシステムスナップショット機構を通じて、これらのリスクを軽減するために設計されたフォールトトレラントサンドボックスフレームワークを提案する。
我々は、アトミックトランザクションでエージェントアクションをラップすることで、コンテナの初期化オーバーヘッドや商用CLIの対話的摩擦よりも優れた、許容できるレイテンシで安全性を保証できると仮定する。
EVPN/VXLANアイソレーションを利用したカスタムProxmoxベースのテストベッド上に,ナノvllmで提供されるMinmind-MoE LLMをデプロイすることで,このアプローチを検証した。
実験結果から、高リスクコマンドに対する100\%のインターセプション率と、ロールバック失敗状態における100\%の成功率が確認された。
重要なことは、当社のプロトタイプはトランザクション毎に14.5\%のパフォーマンスオーバーヘッド(約1.8秒)しか発生しません。
対照的に、Gemini CLIサンドボックスに対するベンチマークでは、対話的な認証("Sign in")が必要であり、ヘッドレスで自律的なエージェントワークフローでは使用できないことが明らかになった。
関連論文リスト
- DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents [38.755035623707656]
本稿では,エージェントツールの利用を生かした新しいマルチターンアタックフレームワークSTACについて紹介する。
我々は,483のSTACケースを自動生成し,評価するために,1,352セットのユーザエージェント環境相互作用を特徴とするフレームワークを適用した。
GPT-4.1を含む最先端のLSMエージェントはSTACに対して極めて脆弱であり,攻撃成功率(ASR)は90%以上である。
論文 参考訳(メタデータ) (2025-09-30T00:31:44Z) - BlockA2A: Towards Secure and Verifiable Agent-to-Agent Interoperability [8.539128225018489]
BlockA2Aはエージェントとエージェントの相互運用性のための統合されたマルチエージェント信頼フレームワークである。
集中的な信頼ボトルネックを排除し、メッセージの信頼性と実行の整合性を確保し、エージェント間のインタラクションにおける説明責任を保証する。
ビザンチンエージェントのフラグング、リアクティブ実行停止、即時許可取り消しなど、リアルタイムメカニズムによる攻撃を中和する。
論文 参考訳(メタデータ) (2025-08-02T11:59:21Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。