論文の概要: STELP: Secure Transpilation and Execution of LLM-Generated Programs
- arxiv url: http://arxiv.org/abs/2601.05467v3
- Date: Thu, 15 Jan 2026 07:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 13:33:41.231848
- Title: STELP: Secure Transpilation and Execution of LLM-Generated Programs
- Title(参考訳): STELP: LLM生成プログラムのセキュアなトランスパイレーションと実行
- Authors: Swapnil Shinde, Sahil Wadhwa, Andy Luo, Akshay Gupta, Mohammad Shahed Sorower,
- Abstract要約: LLM(Large Language Models)は、コード生成などのソフトウェア開発関連のタスクを解決する。
LLMの生成したコードは不安定あるいは誤動作し、システム障害を広範囲に発生させる脆弱性を含む可能性がある。
本稿では,LLM生成プログラム(STELP)のセキュアトランスパイラと実行器を提案する。
- 参考スコア(独自算出の注目度): 2.986494009382113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapid evolution of Large Language Models (LLMs) has achieved major advances in reasoning, planning, and function-calling capabilities. Multi-agentic collaborative frameworks using such LLMs place them at the center of solving software development-related tasks such as code generation. However, direct use of LLM generated code in production software development systems is problematic. The code could be unstable or erroneous and contain vulnerabilities such as data poisoning, malicious attacks, and hallucinations that could lead to widespread system malfunctions. This prohibits the adoption of LLM generated code in production AI systems where human code reviews and traditional secure testing tools are impractical or untrustworthy. In this paper, we discuss safety and reliability problems with the execution of LLM generated code and propose a Secure Transpiler and Executor of LLM-Generated Program (STELP), capable of executing LLM-generated code in a controlled and safe manner. STELP secures autonomous production AI systems involving code generation, filling the critical void left by the impracticality or limitations of traditional secure testing methodologies and human oversight. This includes applications such as headless code generation-execution and LLMs that produce executable code snippets as an action plan to be executed in real time. We contribute a human-validated dataset of insecure code snippets and benchmark our approach on publicly available datasets for correctness, safety, and latency. Our results demonstrate that our approach outperforms an existing method by a significant margin, particularly in its ability to safely execute risky code snippets. Warning: This paper contains malicious code snippets that should be run with caution.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進化は、推論、計画、関数呼び出し機能において大きな進歩を遂げた。
このようなLLMを使ったマルチエージェント協調フレームワークは、コード生成のようなソフトウェア開発関連のタスクを解決する中心に位置する。
しかし、LLM生成コードの本番ソフトウェア開発システムへの直接的利用は問題となる。
コードは不安定で誤動作し、データ中毒、悪意のある攻撃、幻覚などの脆弱性が含まれており、システム障害の広範囲につながる可能性がある。
これにより、人間のコードレビューや従来のセキュアなテストツールが非現実的あるいは信頼できない実運用AIシステムにおいて、LLM生成されたコードの採用が禁止される。
本稿では, LLM生成コードの実行における安全性と信頼性の問題について議論し, LLM生成プログラム(STELP)のセキュアトランスパイラと実行者を提案する。
STELPは、コード生成を含む自律生産AIシステムを確保し、従来のセキュアなテスト手法と人間の監視の非現実性や制限によって残された重要な空白を埋める。
これには、ヘッドレスコード生成実行や、リアルタイムで実行されるアクションプランとして実行可能なコードスニペットを生成するLCMなどのアプリケーションが含まれる。
安全でないコードスニペットの人為的なデータセットをコントリビュートし、我々のアプローチを公開データセットにベンチマークして、正確性、安全性、レイテンシを検証します。
提案手法は,特にリスクの高いコードスニペットを安全に実行する能力において,既存の手法よりも優れていることを示す。
警告: この論文には、注意して実行すべき悪意のあるコードスニペットが含まれている。
関連論文リスト
- TypePilot: Leveraging the Scala Type System for Secure LLM-generated Code [46.747768845221735]
大規模言語モデル(LLM)は、様々なプログラミング言語のコード生成タスクにおいて顕著な習熟度を示している。
それらのアウトプットには微妙だが重要な脆弱性があり、セキュリティに敏感なシステムやミッションクリティカルなシステムにデプロイすると重大なリスクが生じる。
本稿では,LLM生成コードのセキュリティとロバスト性を高めるために設計されたエージェントAIフレームワークであるTypePilotを紹介する。
論文 参考訳(メタデータ) (2025-10-13T08:44:01Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。
本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:27:59Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - The Hidden Risks of LLM-Generated Web Application Code: A Security-Centric Evaluation of Code Generation Capabilities in Large Language Models [0.769672852567215]
本稿では,複数のモデルにまたがるLLM生成コードのセキュリティコンプライアンスを評価するために,予め定義されたセキュリティパラメータを用いる。
この分析は、認証機構、セッション管理、入力バリデーション、HTTPセキュリティヘッダに重大な脆弱性を明らかにしている。
我々の発見は、LLM生成コードのセキュアなソフトウェアデプロイメントやレビューのために、人間の専門知識が不可欠であることを示している。
論文 参考訳(メタデータ) (2025-04-29T10:23:11Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。
しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。
本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-06-18T11:29:34Z) - SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。
フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。