論文の概要: Does Teaming-Up LLMs Improve Secure Code Generation? A Comprehensive Evaluation with Multi-LLMSecCodeEval
- arxiv url: http://arxiv.org/abs/2603.22717v1
- Date: Tue, 24 Mar 2026 02:13:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.253267
- Title: Does Teaming-Up LLMs Improve Secure Code Generation? A Comprehensive Evaluation with Multi-LLMSecCodeEval
- Title(参考訳): チームアップLDMはセキュアコード生成を改善するか?Multi-LLMSecCodeEvalによる総合評価
- Authors: Bushra Sabir, Shigang Liu, Seung Ick Jang, Sharif Abuadbba, Yansong Gao, Kristen Moore, SangCheol Kim, Hyoungshick Kim, Surya Nepal,
- Abstract要約: Multi-LLMSECCODEEVALは、脆弱性管理ライフサイクル全体にわたるセキュリティの評価と強化のためのフレームワークである。
シングルモデル、アンサンブル、コラボレーティブ、ハイブリッドデザインにまたがる10のパイプラインをベンチマークします。
- 参考スコア(独自算出の注目度): 22.812621042022105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically generating source code from natural language using large language models (LLMs) is becoming common, yet security vulnerabilities persist despite advances in fine tuning and prompting. In this work, we systematically evaluate whether multi LLM ensembles and collaborative strategies can meaningfully improve secure code generation. We present MULTI-LLMSECCODEEVAL, a framework for assessing and enhancing security across the vulnerability management lifecycle by combining multiple LLMs with static analysis and structured collaboration. Using SecLLMEval and SecLLMHolmes, we benchmark ten pipelines spanning single model, ensemble, collaborative, and hybrid designs. Our results show that ensemble pipelines augmented with static analysis improve secure code generation over single LLM baselines by up to 47.3% on SecLLMEval and 19.3% on SecLLMHolmes, while purely LLM based collaborative pipelines yield smaller gains of 8.9% to 22.3%. Hybrid pipelines that integrate ensembling, detection, and patching achieve the strongest security performance, outperforming the best ensemble baseline by 1.78% to 4.72% and collaborative baselines by 19.81% to 26.78%. Ablation studies reveal that model scale alone does not ensure security. Smaller, structured multi model ensembles consistently outperform large monolithic LLMs. Overall, our findings demonstrate that secure code does not emerge from scale, but from carefully orchestrated multi model system design.
- Abstract(参考訳): 大規模言語モデル(LLM)を使用して、自然言語からソースコードを自動的に生成することが一般的になっているが、微調整やプロンプトの進歩にもかかわらず、セキュリティ上の脆弱性は継続している。
本研究では,複数のLLMアンサンブルと協調戦略がセキュアなコード生成に有意義な改善をもたらすかどうかを系統的に評価する。
我々は,複数のLDMと静的解析と構造化協調を組み合わせることで,脆弱性管理ライフサイクル全体にわたってセキュリティを評価し,強化するフレームワークであるMulti-LLMSECCODEEVALを提案する。
SecLLMEvalとSecLLMHolmesを使用して、単一モデル、アンサンブル、コラボレーティブ、ハイブリッドデザインにまたがる10のパイプラインをベンチマークします。
その結果,静的解析で強化されたアンサンブルパイプラインは,SecLLMEvalで47.3%,SecLLMHolmesで19.3%,純粋にLLMベースのコラボレーティブパイプラインでは8.9%から22.3%に向上した。
アンサンブル、検出、パッチを統合したハイブリッドパイプラインは、最高アンサンブルベースラインを1.78%から4.72%、コラボベースラインを19.81%から26.78%で上回っている。
アブレーション研究によると、モデルスケールだけではセキュリティが保証されない。
より小さく構造化されたマルチモデルアンサンブルは、大きなモノリシックLLMよりも一貫して優れている。
全体としては、セキュアなコードはスケールからではなく、慎重に編成されたマルチモデルシステム設計から生まれることを示している。
関連論文リスト
- RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Improving LLM-Assisted Secure Code Generation through Retrieval-Augmented-Generation and Multi-Tool Feedback [1.1017250479834206]
大きな言語モデル(LLM)はコードを生成することができるが、セキュリティ上の脆弱性、論理的不整合、コンパイルエラーをしばしば導入する。
本稿では,1つのコード生成LLMが反復的に出力を洗練する検索拡張型マルチツール修復ワークフローを提案する。
論文 参考訳(メタデータ) (2026-01-01T23:34:00Z) - Latent Collaboration in Multi-Agent Systems [140.51506923969345]
マルチエージェントシステム(MAS)は、独立した単一モデル推論から協調的なシステムレベルのインテリジェンスへと拡張される。
LLMエージェント間の純粋な遅延協調を可能にするエンドツーエンドのトレーニングフリーフレームワークであるLatentMASを紹介する。
論文 参考訳(メタデータ) (2025-11-25T18:56:57Z) - Benchmarking Correctness and Security in Multi-Turn Code Generation [41.75392001830794]
MTSecは,マルチターン符号化シナリオにおける正当性とセキュリティを評価する最初のベンチマークである。
MT-Secでは32のオープンソースモデルとクローズドソースモデルと3つのエージェントスキャフォールディングを評価した。
エージェント生成スキャフォールディングは単一ターンコード生成性能を高めるが,マルチターン評価にはあまり有効ではないことがわかった。
論文 参考訳(メタデータ) (2025-10-13T01:20:46Z) - CTTS: Collective Test-Time Scaling [58.564620942591866]
テスト時スケーリング(TTS)は,大規模言語モデル(LLM)のパフォーマンス向上のための,有望かつトレーニング不要なアプローチとして登場した。
単体テストタイムスケーリング(STTS)パラダイムを克服するために、CTTS(Collective Test-Time Scaling)を導入します。
CTTS-MMは、マルチエージェントとマルチリワードのコラボレーションを運用する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-08-05T11:19:08Z) - FusionFactory: Fusing LLM Capabilities with Multi-LLM Log Data [60.09659670497899]
大規模言語モデル(LLM)は、さまざまなモデルのランドスケープを持ち、それぞれが異なるタスクで優れています。
この多様性は、研究者に複数のLLMを実際に採用させ、貴重なマルチLLMログデータを残します。
1)実世界のサービスシナリオ(例えば、ローカルおよびAPIベースのサービス)との互換性と、(2)様々なユーザニーズを満たすためにLLMパイプラインの異なる段階での運用の柔軟性である。
論文 参考訳(メタデータ) (2025-07-14T17:58:02Z) - A Weighted Byzantine Fault Tolerance Consensus Driven Trusted Multiple Large Language Models Network [53.37983409425452]
大規模言語モデル(LLM)は幅広いアプリケーションで大きな成功を収めています。
近年,MultiLLMネットワーク(MultiLLMN)などの協調フレームワークが導入されている。
重み付きビザンチンフォールトトレランス(WBFT)ブロックチェーンコンセンサス機構によって駆動される新しいTrusted MultiLLMNフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-08T10:04:41Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Enhancing LLM Code Generation with Ensembles: A Similarity-Based Selection Approach [6.93983229112122]
コード生成における大規模言語モデル(LLM)のアンサンブル手法を提案する。
投票には,CodeBLEUと行動等価性を用いて構文的・意味的類似性を計算する。
実験により,我々のアンサンブルアプローチはスタンドアローンLLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-03-20T04:38:56Z) - STALL+: Boosting LLM-based Repository-level Code Completion with Static Analysis [8.059606338318538]
この研究は、LLMベースのリポジトリレベルのコード補完における静的解析の統合に関する最初の研究を行う。
まず、拡張可能でカスタマイズ可能な複数の静的解析戦略の統合をサポートするフレームワークSTALL+を実装します。
その結果,ファイルレベルの依存関係をプロンプトフェーズに組み込むことが最善であるのに対して,後処理フェーズの統合はより悪くなっていることがわかった。
論文 参考訳(メタデータ) (2024-06-14T13:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。