論文の概要: Quantifying Frontier LLM Capabilities for Container Sandbox Escape
- arxiv url: http://arxiv.org/abs/2603.02277v1
- Date: Sun, 01 Mar 2026 22:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.492651
- Title: Quantifying Frontier LLM Capabilities for Container Sandbox Escape
- Title(参考訳): コンテナサンドボックスエスケープのためのフロンティアLDM能力の定量化
- Authors: Rahul Marchand, Art O Cathain, Jerome Wynne, Philippos Maximos Giavridis, Sam Deverett, John Wilkinson, Jason Gwartz, Harry Coppock,
- Abstract要約: 大規模言語モデル(LLM)は、コードの実行、ファイルの読み書き、ネットワークへのアクセスといったツールを使用して、自律的なエージェントとして機能するようになっている。
これらのリスクを軽減するため、エージェントは一般的にデプロイされ、独立した"サンドボックス"環境で評価される。
オープンベンチマークであるSANDBOXESCAPEBENCHを導入する。
- 参考スコア(独自算出の注目度): 1.6245103041408155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) increasingly act as autonomous agents, using tools to execute code, read and write files, and access networks, creating novel security risks. To mitigate these risks, agents are commonly deployed and evaluated in isolated "sandbox" environments, often implemented using Docker/OCI containers. We introduce SANDBOXESCAPEBENCH, an open benchmark that safely measures an LLM's capacity to break out of these sandboxes. The benchmark is implemented as an Inspect AI Capture the Flag (CTF) evaluation utilising a nested sandbox architecture with the outer layer containing the flag and no known vulnerabilities. Following a threat model of a motivated adversarial agent with shell access inside a container, SANDBOXESCAPEBENCH covers a spectrum of sandboxescape mechanisms spanning misconfiguration, privilege allocation mistakes, kernel flaws, and runtime/orchestration weaknesses. We find that, when vulnerabilities are added, LLMs are able to identify and exploit them, showing that use of evaluation like SANDBOXESCAPEBENCH is needed to ensure sandboxing continues to provide the encapsulation needed for highly-capable models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コードの実行、ファイルの読み書き、ネットワークへのアクセス、新たなセキュリティリスクの創出など、自律的なエージェントとしての役割をますます高めている。
これらのリスクを軽減するため、エージェントは通常、Docker/OCIコンテナを使用して実装される独立した“サンドボックス”環境でデプロイされ、評価される。
オープンベンチマークであるSANDBOXESCAPEBENCHを導入する。
ベンチマークは、フラグを含む外層と既知の脆弱性のないネストサンドボックスアーキテクチャを活用した、Inspect AI Capture the Flag(CTF)評価として実装されている。
SANDBOXESCAPEBENCHは、コンテナ内のシェルアクセスを備えたモチベーション付き敵エージェントの脅威モデルに従って、設定ミス、特権割り当てミス、カーネルの欠陥、ランタイム/オーケストレーションの弱点を含むサンドボックスのエスケープメカニズムをカバーしている。
脆弱性を追加すると、LSMはそれらを識別して悪用することができ、サンドボックス化が高機能なモデルに必要なカプセル化を提供し続けるために、SANDBOXESCAPEBENCHのような評価を使う必要があることを示す。
関連論文リスト
- RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - LLM-in-Sandbox Elicits General Agentic Intelligence [142.7174116109795]
我々はLLM-in-Sandboxを導入し、LLMがコードサンドボックス(仮想コンピュータ)内で探索し、非コードドメインの汎用インテリジェンスを引き出すことを可能にする。
コードサンドボックスを非コードタスクに活用するための一般化機能を示す。
実験により、LLM-in-Sandboxは、無訓練と後訓練の両方の環境で、数学、物理学、化学、生医学、長文理解、そして次の指示にまたがる堅牢な一般化を実現することが示された。
論文 参考訳(メタデータ) (2026-01-22T18:57:09Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - ORCA: Unveiling Obscure Containers In The Wild [2.412902381004722]
ソフトウェア構成分析(SCA)は、コンテナ内のパッケージや依存関係を特定するのに役立つ重要なプロセスです。
本稿では,クラウドベースのSCAツールとオープンソースSCAツールが,このような不明瞭なイメージに直面している場合の限界について検討する。
本稿では,コンテナ解析の難読化手法を提案し,そのオープンソース実装であるORCAを紹介する。
論文 参考訳(メタデータ) (2025-09-11T10:12:56Z) - Empirical Security Analysis of Software-based Fault Isolation through Controlled Fault Injection [21.57370108666908]
GoogleのV8ヒープサンドボックスは、ChromiumベースのすべてのブラウザとNode$.jsとElectron上に構築された数え切れないほど多くのユーザを保護する。
広く使われているにもかかわらず、そのようなSFI機構はセキュリティテストはほとんど行われていない。
本稿では,現代のSFI実装のセキュリティ境界をモデル化する新しいテスト手法を提案する。
論文 参考訳(メタデータ) (2025-09-09T13:56:17Z) - SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism [123.54980913741828]
MLLM(Multimodal Large Language Models)は、視覚的推論をサポートするためにLLMを拡張する。
MLLMは、マルチモーダルなジェイルブレイク攻撃や安全なデプロイメントを妨げる可能性がある。
セーフ・プルー・テン・レストア(Safe Prune-then-Restore, SafePTR)は、有害なトークンを脆弱な層で選択的にプルーすると同時に、その後の層で良質な機能を復元する、トレーニング不要の防御フレームワークである。
論文 参考訳(メタデータ) (2025-07-02T09:22:03Z) - CVE-Bench: A Benchmark for AI Agents' Ability to Exploit Real-World Web Application Vulnerabilities [6.752938800468733]
大規模言語モデル(LLM)エージェントは、サイバー攻撃を自律的に行う能力が高まっている。
既存のベンチマークは、抽象化されたCapture the Flagコンペティションに制限されているか、包括的なカバレッジが欠如しているため、不足している。
私たちはCVE-Benchを紹介します。CVE-Benchは、クリティカルシヴァリティ・コモン・脆弱性と露出に基づく、現実世界のサイバーセキュリティベンチマークです。
論文 参考訳(メタデータ) (2025-03-21T17:32:32Z) - Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。
我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。
我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文 参考訳(メタデータ) (2025-02-18T08:17:32Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。