論文の概要: BaxBench: Can LLMs Generate Correct and Secure Backends?
- arxiv url: http://arxiv.org/abs/2502.11844v2
- Date: Thu, 20 Feb 2025 14:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:57.451763
- Title: BaxBench: Can LLMs Generate Correct and Secure Backends?
- Title(参考訳): BaxBench: LLMは正しいバックエンドとセキュアなバックエンドを生成することができるか?
- Authors: Mark Vero, Niels Mündler, Victor Chibotaru, Veselin Raychev, Maximilian Baader, Nikola Jovanović, Jingxuan He, Martin Vechev,
- Abstract要約: 大規模言語モデル(LLM)は、関数レベルで効率的にコードを生成し、コード編集を行い、アルゴリズムによるコーディングタスクを解決する。
完全な自動化を実現するためには、LLMは製品品質の自己完結型アプリケーションモジュールを生成する必要がある。
バックエンドアプリケーション生成のための392タスクからなる新しい評価ベンチマークであるBaxBenchを紹介する。
- 参考スコア(独自算出の注目度): 8.928756381808974
- License:
- Abstract: The automatic generation of programs has long been a fundamental challenge in computer science. Recent benchmarks have shown that large language models (LLMs) can effectively generate code at the function level, make code edits, and solve algorithmic coding tasks. However, to achieve full automation, LLMs should be able to generate production-quality, self-contained application modules. To evaluate the capabilities of LLMs in solving this challenge, we introduce BaxBench, a novel evaluation benchmark consisting of 392 tasks for the generation of backend applications. We focus on backends for three critical reasons: (i) they are practically relevant, building the core components of most modern web and cloud software, (ii) they are difficult to get right, requiring multiple functions and files to achieve the desired functionality, and (iii) they are security-critical, as they are exposed to untrusted third-parties, making secure solutions that prevent deployment-time attacks an imperative. BaxBench validates the functionality of the generated applications with comprehensive test cases, and assesses their security exposure by executing end-to-end exploits. Our experiments reveal key limitations of current LLMs in both functionality and security: (i) even the best model, OpenAI o1, achieves a mere 60% on code correctness; (ii) on average, we could successfully execute security exploits on more than half of the correct programs generated by each LLM; and (iii) in less popular backend frameworks, models further struggle to generate correct and secure applications. Progress on BaxBench signifies important steps towards autonomous and secure software development with LLMs.
- Abstract(参考訳): プログラムの自動生成は、長い間コンピュータ科学における根本的な課題であった。
最近のベンチマークでは、大きな言語モデル(LLM)が関数レベルでコードを効果的に生成し、コード編集を行い、アルゴリズムによるコーディングタスクを解決することが示されている。
しかし、完全な自動化を実現するためには、LLMは製品品質の自己完結型アプリケーションモジュールを生成する必要がある。
この問題を解決する上でLLMの能力を評価するために,バックエンドアプリケーション生成のための392タスクからなる新しい評価ベンチマークであるBaxBenchを紹介する。
私たちは3つの重要な理由からバックエンドに注力しています。
i) それらは事実上関係があり、ほとんどのモダンなWebおよびクラウドソフトウェアの中核となるコンポーネントを構築します。
(ii) 要求する機能を達成するために複数の機能やファイルを必要とするため、正しく取得することは困難である。
第三に、信頼できないサードパーティに晒され、デプロイ時の攻撃を防ぐための安全なソリューションを作るため、それらはセキュリティクリティカルです。
BaxBenchは、生成されたアプリケーションの機能を包括的なテストケースで検証し、エンドツーエンドのエクスプロイトを実行することでセキュリティ露出を評価する。
我々の実験は、機能とセキュリティの両方において、現在のLLMの重要な制限を明らかにしている。
(i)最高のモデルであるOpenAI o1でさえ、コード正しさの60%しか達成していません。
(ii) 各LSMが生成したプログラムの半数以上に対して,セキュリティエクスプロイトの実行を成功させることができた。
(iii) あまり人気のないバックエンドフレームワークでは、モデルはさらに正確でセキュアなアプリケーションを生成するのに苦労しています。
BaxBenchの進歩は、LLMによる自律的でセキュアなソフトウェア開発への重要なステップを示している。
関連論文リスト
- AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - PromSec: Prompt Optimization for Secure Generation of Functional Source Code with Large Language Models (LLMs) [4.2913589403278225]
LLM(Large Language Model)は、高品質なソースコードを生成するために使われる。
LLMは、安全でないオープンソースデータのトレーニングのために、セキュリティ上の脆弱性をしばしば導入する。
本稿では,セキュアかつ機能的なコード生成のためのプロム最適化アルゴリズムであるPromSecを紹介する。
論文 参考訳(メタデータ) (2024-09-19T12:14:10Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Can We Trust Large Language Models Generated Code? A Framework for In-Context Learning, Security Patterns, and Code Evaluations Across Diverse LLMs [2.7138982369416866]
大規模言語モデル(LLM)は、ソフトウェア工学における自動コード生成に革命をもたらした。
しかし、生成されたコードのセキュリティと品質に関する懸念が持ち上がっている。
本研究は,LLMの行動学習をセキュアにするための枠組みを導入することで,これらの課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-06-18T11:29:34Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。
我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-13T11:29:13Z) - SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。
フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z) - LLMs as Hackers: Autonomous Linux Privilege Escalation Attacks [0.0]
言語モデル(LLM)と浸透試験の共通点について検討する。
本稿では,LLMの(倫理的)ハッキングに対する有効性を評価するための,完全自動特権エスカレーションツールを提案する。
我々は,異なるコンテキストサイズ,コンテキスト内学習,任意の高レベルメカニズム,メモリ管理技術の影響を分析する。
論文 参考訳(メタデータ) (2023-10-17T17:15:41Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。