Fugu-MT 論文翻訳(概要): BaxBench: Can LLMs Generate Correct and Secure Backends?

論文の概要: BaxBench: Can LLMs Generate Correct and Secure Backends?

arxiv url: http://arxiv.org/abs/2502.11844v2
Date: Thu, 20 Feb 2025 14:52:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 13:23:53.255502
Title: BaxBench: Can LLMs Generate Correct and Secure Backends?
Title（参考訳）: BaxBench: LLMは正しいバックエンドとセキュアなバックエンドを生成することができるか?
Authors: Mark Vero, Niels Mündler, Victor Chibotaru, Veselin Raychev, Maximilian Baader, Nikola Jovanović, Jingxuan He, Martin Vechev,
Abstract要約: 大規模言語モデル(LLM)は、関数レベルで効率的にコードを生成し、コード編集を行い、アルゴリズムによるコーディングタスクを解決する。完全な自動化を実現するためには、LLMは製品品質の自己完結型アプリケーションモジュールを生成する必要がある。バックエンドアプリケーション生成のための392タスクからなる新しい評価ベンチマークであるBaxBenchを紹介する。
参考スコア（独自算出の注目度）: 8.928756381808974
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The automatic generation of programs has long been a fundamental challenge in computer science. Recent benchmarks have shown that large language models (LLMs) can effectively generate code at the function level, make code edits, and solve algorithmic coding tasks. However, to achieve full automation, LLMs should be able to generate production-quality, self-contained application modules. To evaluate the capabilities of LLMs in solving this challenge, we introduce BaxBench, a novel evaluation benchmark consisting of 392 tasks for the generation of backend applications. We focus on backends for three critical reasons: (i) they are practically relevant, building the core components of most modern web and cloud software, (ii) they are difficult to get right, requiring multiple functions and files to achieve the desired functionality, and (iii) they are security-critical, as they are exposed to untrusted third-parties, making secure solutions that prevent deployment-time attacks an imperative. BaxBench validates the functionality of the generated applications with comprehensive test cases, and assesses their security exposure by executing end-to-end exploits. Our experiments reveal key limitations of current LLMs in both functionality and security: (i) even the best model, OpenAI o1, achieves a mere 60% on code correctness; (ii) on average, we could successfully execute security exploits on more than half of the correct programs generated by each LLM; and (iii) in less popular backend frameworks, models further struggle to generate correct and secure applications. Progress on BaxBench signifies important steps towards autonomous and secure software development with LLMs.
Abstract（参考訳）: プログラムの自動生成は、長い間コンピュータ科学における根本的な課題であった。最近のベンチマークでは、大きな言語モデル(LLM)が関数レベルでコードを効果的に生成し、コード編集を行い、アルゴリズムによるコーディングタスクを解決することが示されている。しかし、完全な自動化を実現するためには、LLMは製品品質の自己完結型アプリケーションモジュールを生成する必要がある。この問題を解決する上でLLMの能力を評価するために,バックエンドアプリケーション生成のための392タスクからなる新しい評価ベンチマークであるBaxBenchを紹介する。私たちは3つの重要な理由からバックエンドに注力しています。 i) それらは事実上関係があり、ほとんどのモダンなWebおよびクラウドソフトウェアの中核となるコンポーネントを構築します。 (ii) 要求する機能を達成するために複数の機能やファイルを必要とするため、正しく取得することは困難である。第三に、信頼できないサードパーティに晒され、デプロイ時の攻撃を防ぐための安全なソリューションを作るため、それらはセキュリティクリティカルです。 BaxBenchは、生成されたアプリケーションの機能を包括的なテストケースで検証し、エンドツーエンドのエクスプロイトを実行することでセキュリティ露出を評価する。我々の実験は、機能とセキュリティの両方において、現在のLLMの重要な制限を明らかにしている。 (i)最高のモデルであるOpenAI o1でさえ、コード正しさの60%しか達成していません。 (ii) 各LSMが生成したプログラムの半数以上に対して,セキュリティエクスプロイトの実行を成功させることができた。 (iii) あまり人気のないバックエンドフレームワークでは、モデルはさらに正確でセキュアなアプリケーションを生成するのに苦労しています。 BaxBenchの進歩は、LLMによる自律的でセキュアなソフトウェア開発への重要なステップを示している。

関連論文リスト

SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks [11.97472024483841]
SEC-benchは、大規模言語モデル(LLM)エージェントを評価するための、最初の完全に自動化されたベンチマークフレームワークである。当社のフレームワークは,再現可能なアーティファクトを備えた高品質なソフトウェア脆弱性データセットを,インスタンス当たり0.87ドルで自動生成します。最先端のLLMコードエージェントの包括的な評価では、大きなパフォーマンスギャップが明らかになっている。
論文参考訳（メタデータ） (2025-06-13T13:54:30Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
OSS-Bench: Benchmark Generator for Coding LLMs [4.393587297483245]
本稿では,実世界のオープンソースソフトウェアから大規模かつ実運用的な評価タスクを構築するベンチマークジェネレータOSS-Benchを紹介する。 OSS-Benchは、関数をLLM生成コードに置き換えて、コンパイル性、機能的正確性、メモリ安全性という3つの自然な指標を使用して評価する。 OSS-BenchはOSSの複雑さの進化を生かして過度な適合を緩和することを示した。
論文参考訳（メタデータ） (2025-05-18T09:53:51Z)
The Hidden Risks of LLM-Generated Web Application Code: A Security-Centric Evaluation of Code Generation Capabilities in Large Language Models [0.769672852567215]
本稿では,複数のモデルにまたがるLLM生成コードのセキュリティコンプライアンスを評価するために,予め定義されたセキュリティパラメータを用いる。この分析は、認証機構、セッション管理、入力バリデーション、HTTPセキュリティヘッダに重大な脆弱性を明らかにしている。我々の発見は、LLM生成コードのセキュアなソフトウェアデプロイメントやレビューのために、人間の専門知識が不可欠であることを示している。
論文参考訳（メタデータ） (2025-04-29T10:23:11Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
PromSec: Prompt Optimization for Secure Generation of Functional Source Code with Large Language Models (LLMs) [4.2913589403278225]
LLM(Large Language Model)は、高品質なソースコードを生成するために使われる。 LLMは、安全でないオープンソースデータのトレーニングのために、セキュリティ上の脆弱性をしばしば導入する。本稿では,セキュアかつ機能的なコード生成のためのプロム最適化アルゴリズムであるPromSecを紹介する。
論文参考訳（メタデータ） (2024-09-19T12:14:10Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文参考訳（メタデータ） (2024-06-24T15:45:22Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
NYU CTF Bench: A Scalable Open-Source Benchmark Dataset for Evaluating LLMs in Offensive Security [28.125179435861316]
大規模言語モデル(LLM)は、さまざまなドメインにデプロイされているが、Capture the Flag(CTF)の課題を解決する能力は、十分に評価されていない。我々は、スケーラブルでオープンソースのベンチマークデータベースを作成することで、CTFの課題を解決する上で、LCMを評価する新しい手法を開発した。このデータベースは、LLMテストと適応学習のためのメタデータを含み、人気のあるコンペからさまざまなCTF課題をコンパイルする。
論文参考訳（メタデータ） (2024-06-08T22:21:42Z)
Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。 DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。 GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
Software Vulnerability and Functionality Assessment using LLMs [0.8057006406834466]
我々は,Large Language Models (LLMs) がコードレビューに役立つかどうかを検討する。我々の調査は、良質なレビューに欠かせない2つの課題に焦点を当てている。
論文参考訳（メタデータ） (2024-03-13T11:29:13Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文参考訳（メタデータ） (2023-11-01T22:46:31Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。