論文の概要: Benchmarking Correctness and Security in Multi-Turn Code Generation
- arxiv url: http://arxiv.org/abs/2510.13859v1
- Date: Mon, 13 Oct 2025 01:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.485684
- Title: Benchmarking Correctness and Security in Multi-Turn Code Generation
- Title(参考訳): マルチターンコード生成におけるベンチマーク精度とセキュリティ
- Authors: Ruchit Rawal, Jeffrey Yang Fan Chiang, Chihao Shen, Jeffery Siyuan Tian, Aastha Mahajan, Tom Goldstein, Yizheng Chen,
- Abstract要約: MTSecは,マルチターン符号化シナリオにおける正当性とセキュリティを評価する最初のベンチマークである。
MT-Secでは32のオープンソースモデルとクローズドソースモデルと3つのエージェントスキャフォールディングを評価した。
エージェント生成スキャフォールディングは単一ターンコード生成性能を高めるが,マルチターン評価にはあまり有効ではないことがわかった。
- 参考スコア(独自算出の注目度): 41.75392001830794
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AI coding assistants powered by large language models (LLMs) have transformed software development, significantly boosting productivity. While existing benchmarks evaluate the correctness and security of LLM-generated code, they are typically limited to single-turn tasks that do not reflect the iterative nature of real-world development. We introduce MT-Sec, the first benchmark to systematically evaluate both correctness and security in multi-turn coding scenarios. We construct this using a synthetic data pipeline that transforms existing single-turn tasks into semantically aligned multi-turn interaction sequences, allowing reuse of original test suites while modeling the complexity of real-world coding processes. We evaluate 32 open- and closed-source models, and three agent-scaffolding on MT-Sec and observe a consistent 20-27% drop in "correct and secure" outputs from single-turn to multi-turn settings -- even among state-of-the-art models. Beyond full-program generation, we also evaluate models on multi-turn code-diff generation -- an unexplored yet practically relevant setting -- and find that models perform worse here, with increased rates of functionally incorrect and insecure outputs. Finally, we find that while agent scaffoldings boost single-turn code generation performance, they are not quite as effective in multi-turn evaluations. Together, these findings highlight the need for benchmarks that jointly evaluate correctness and security in multi-turn, real-world coding workflows.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したAIコーディングアシスタントは、ソフトウェア開発を変革し、生産性を大幅に向上させた。
既存のベンチマークでは、LLM生成コードの正確性とセキュリティが評価されているが、実際の開発を反復的に反映しないシングルターンタスクに限られている。
MT-Secは,マルチターン符号化シナリオにおける正当性とセキュリティの両方を体系的に評価する最初のベンチマークである。
我々は,既存の単一ターンタスクを意味的に整合したマルチターンインタラクションシーケンスに変換する合成データパイプラインを用いてこれを構築し,実世界のコーディングプロセスの複雑さをモデル化しながら,元のテストスイートの再利用を可能にする。
我々は,32のオープンソースモデルとクローズドソースモデルを評価し,MT-Sec上で3つのエージェントスキャフォールディングを行い,最先端モデルであっても,シングルターンからマルチターン設定までの「正確かつセキュアな」出力が20~27%減少するのを観測した。
フルプログラム生成以外にも、マルチターンコード差分生成(探索されていないが実際は関係のある設定)モデルの評価も行っています。
最後に,エージェントのスキャフォールディングにより単一ターンコード生成性能が向上するが,マルチターン評価にはあまり有効ではないことがわかった。
これらの知見は、マルチターンで現実世界のコーディングワークフローにおいて、正確性とセキュリティを共同で評価するベンチマークの必要性を強調している。
関連論文リスト
- SynthCoder: A Synthetical Strategy to Tune LLMs for Code Completion [7.668823606571788]
コード補完は、ソフトウェア工学における大規模言語モデル(LLM)の顕著な応用である。
本稿では,Fill-in-the-Middle(FIM)コード補完タスクにおける最先端技術を実現するために,業界をリードするプラクティスを統合するモデルであるSynthCoderを提案する。
論文 参考訳(メタデータ) (2025-08-21T12:23:49Z) - Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes [33.80591142965565]
CODE2BENCHは、実世界のGitHubリポジトリから、堅牢で汚染に強いベンチマークを動的に構築するためのパイプラインである。
特に、CODE2BENCHは、(1) トレーニングデータの汚染を最小限に抑えるために、最近のコードの周期的取り込みによって達成される自動ダイナミズム、(2) 依存レベルの制御されたベンチマークインスタンスへの関数の構造化可能なスコープグラフベースの依存性分析、(3) 厳密なテストスイートの自動合成のためのプロパティベーステスト(PBT)の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-08-10T05:06:36Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - CodeFlowBench: A Multi-turn, Iterative Benchmark for Complex Code Generation [22.74831630054096]
コードフローを実行するLLMの能力を総合的に評価するために設計された最初のベンチマークであるCodeFlowBenchを紹介する。
CodeFlowBenchは、Codeforcesから5,258の問題を発生し、自動パイプラインを通じて継続的に更新される。
16のLLMの大規模な実験により、マルチターンシナリオにおける大幅な性能劣化が明らかになった。
論文 参考訳(メタデータ) (2025-04-30T15:45:28Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - Code Review Automation Via Multi-task Federated LLM -- An Empirical Study [4.8342038441006805]
本研究は,2つの逐次法,1つの並列法,2つの累積法を含む,マルチタスクトレーニングのための5つの簡単な手法について検討した。
その結果,フェデレートされたLLM(FedLLM)をコードレビューのマルチタスクのユースケースで逐次トレーニングすることは,タスク毎に個別のモデルをトレーニングするよりも,時間,計算,パフォーマンスの指標の面で効率が低いことが示唆された。
論文 参考訳(メタデータ) (2024-12-20T08:46:46Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - CodeCoT: Tackling Code Syntax Errors in CoT Reasoning for Code
Generation [6.139760107605468]
チェーン・オブ・シント(CoT)は、複雑な推論タスクにおいて特に有効であるとして、NLPの画期的なツールとして登場した。
コード生成のための自己検査プロセスとCoTを統合したCode Chain-of-Thought(CodeCoT)を提案する。
論文 参考訳(メタデータ) (2023-08-17T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。