Fugu-MT 論文翻訳(概要): SandboxEval: Towards Securing Test Environment for Untrusted Code

論文の概要: SandboxEval: Towards Securing Test Environment for Untrusted Code

arxiv url: http://arxiv.org/abs/2504.00018v1
Date: Thu, 27 Mar 2025 19:56:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 15:43:08.321719
Title: SandboxEval: Towards Securing Test Environment for Untrusted Code
Title（参考訳）: SandboxEval: 信頼できないコードのセキュアなテスト環境を目指して
Authors: Rafiqul Rabin, Jesse Hostetler, Sean McGregor, Brett Weir, Nick Judd,
Abstract要約: この研究は、テスト環境のセキュリティと機密性の評価に重点を置いている。私たちは、現実世界の安全シナリオをシミュレートする手作業によるテストケースを備えたテストスイートであるSandboxEvalを紹介します。まず、このテストスイートは、悪意のあるコードを生成するための命令の下にある LLM 操作上の制限を正確に記述する。
参考スコア（独自算出の注目度）: 2.603958690885184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) are powerful assistants in programming tasks, they may also produce malicious code. Testing LLM-generated code therefore poses significant risks to assessment infrastructure tasked with executing untrusted code. To address these risks, this work focuses on evaluating the security and confidentiality properties of test environments, reducing the risk that LLM-generated code may compromise the assessment infrastructure. We introduce SandboxEval, a test suite featuring manually crafted test cases that simulate real-world safety scenarios for LLM assessment environments in the context of untrusted code execution. The suite evaluates vulnerabilities to sensitive information exposure, filesystem manipulation, external communication, and other potentially dangerous operations in the course of assessment activity. We demonstrate the utility of SandboxEval by deploying it on an open-source implementation of Dyff, an established AI assessment framework used to evaluate the safety of LLMs at scale. We show, first, that the test suite accurately describes limitations placed on an LLM operating under instructions to generate malicious code. Second, we show that the test results provide valuable insights for developers seeking to harden assessment infrastructure and identify risks associated with LLM execution activities.
Abstract（参考訳）: 大きな言語モデル(LLM)はプログラミングタスクの強力なアシスタントであるが、悪意のあるコードを生成することもある。したがって、LLM生成コードのテストは、信頼できないコードを実行するためのインフラ評価に重大なリスクをもたらす。これらのリスクに対処するため、本研究はテスト環境のセキュリティと機密性の評価に重点を置いており、LCM生成コードが評価インフラストラクチャを侵害するリスクを低減する。テストスイートであるSandboxEvalを紹介した。これは、信頼できないコード実行のコンテキストにおいて、LLMアセスメント環境の実際の安全性シナリオをシミュレートする、手作業によるテストケースを特徴とするものだ。このスイートは、センシティブな情報露出、ファイルシステム操作、外部通信、およびアセスメント活動の過程で潜在的に危険な操作に対する脆弱性を評価する。我々は、大規模なLLMの安全性を評価するために使用される確立されたAIアセスメントフレームワークであるDyffのオープンソース実装上にデプロイすることで、SandboxEvalの実用性を実証する。まず、このテストスイートは、悪意のあるコードを生成するための命令の下にある LLM 操作上の制限を正確に記述する。第2に, 評価基盤の強化とLCM実行活動に伴うリスクの特定を図る開発者に対して, テスト結果が有益であることを示す。

関連論文リスト

SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code [7.209766132478914]
LLM生成コードのセキュリティを評価するために特別に設計されたベンチマークであるSafeGenBenchを紹介する。データセットには、幅広い一般的なソフトウェア開発シナリオと脆弱性タイプが含まれている。 SafeGenBench上での最先端LCMの実証評価を通じて,脆弱性のないコードを生成する能力に重大な欠陥があることを明らかにする。
論文参考訳（メタデータ） (2025-06-06T02:48:02Z)
AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents [41.000042817113645]
sysは、トレーニングなし、メモリ拡張推論フレームワークである。 sysは、LLMが適応的に構造化された意味的特徴を抽出することで経験記憶を構築する。 Dataは、LLMベースの評価器が安全リスクとセキュリティ上の脅威の両方を見つけることができるかを確認するために設計された最初のベンチマークである。
論文参考訳（メタデータ） (2025-05-31T17:10:23Z)
The Hidden Risks of LLM-Generated Web Application Code: A Security-Centric Evaluation of Code Generation Capabilities in Large Language Models [0.769672852567215]
本稿では,複数のモデルにまたがるLLM生成コードのセキュリティコンプライアンスを評価するために,予め定義されたセキュリティパラメータを用いる。この分析は、認証機構、セッション管理、入力バリデーション、HTTPセキュリティヘッダに重大な脆弱性を明らかにしている。我々の発見は、LLM生成コードのセキュアなソフトウェアデプロイメントやレビューのために、人間の専門知識が不可欠であることを示している。
論文参考訳（メタデータ） (2025-04-29T10:23:11Z)
Risk Assessment Framework for Code LLMs via Leveraging Internal States [4.216536684967512]
PtTrustは、内部状態事前学習に基づくコードLLMのための2段階のリスクアセスメントフレームワークである。 PtTrustは、LLM状態の一般的な表現を学習するために、大規模な未ラベルのソースコードで教師なしの事前訓練を行う。コードラインレベルの細粒度リスク評価によるPtTrustの有効性を示す。
論文参考訳（メタデータ） (2025-04-20T14:44:18Z)
CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation [20.72188827088484]
大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
論文参考訳（メタデータ） (2025-01-14T15:27:01Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文参考訳（メタデータ） (2024-09-16T22:00:20Z)
S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。 S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文参考訳（メタデータ） (2024-05-23T05:34:31Z)
ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文参考訳（メタデータ） (2024-05-23T02:57:42Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。