論文の概要: SR-Eval: Evaluating LLMs on Code Generation under Stepwise Requirement Refinement
- arxiv url: http://arxiv.org/abs/2509.18808v1
- Date: Tue, 23 Sep 2025 08:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.783982
- Title: SR-Eval: Evaluating LLMs on Code Generation under Stepwise Requirement Refinement
- Title(参考訳): SR-Eval: ステップワイド要求リファインメントによるコード生成におけるLLMの評価
- Authors: Zexun Zhan, Shuzheng Gao, Ruida Hu, Cuiyun Gao,
- Abstract要約: 大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
このミスマッチは、LLMが現実世界の開発をどのようにサポートできるかの理解を制限する。
SR-Evalは,ステップワイド要求再定義に基づく反復コード生成におけるLLMの評価に特化して設計されたベンチマークである。
- 参考スコア(独自算出の注目度): 10.05571095209475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable progress in code generation. However, existing benchmarks mainly formalize the task as a static, single-turn problem, overlooking the stepwise requirement changes and iterative workflows in real-world software development. This mismatch limits the understanding of how well LLMs can support real-world development workflows. Constructing such iterative benchmarks is challenging due to the lack of public interaction traces and the difficulty of creating discriminative, turn-specific test cases. To bridge this gap, we present SR-Eval, a benchmark specifically designed to assess LLMs on iterative code generation under Stepwise requirements Refinement. SR-Eval spans both function-level and repository-level tasks in Python and Java, enabling fine-grained and progressive evaluation across evolving requirements. The construction of SR-Eval follows a carefully designed pipeline that first leverages a multi-agent-based requirement generation method to simulate the development process and recover the multi-round interaction process from final requirements, then employs a semantic-aware discriminative test case generation component to ensure discriminative and consistent evaluation at each turn. SR-Eval comprises 443 multi-turn tasks and 1,857 questions at both function and repository levels. Using SR-Eval, we evaluate 11 representative LLMs with three prompting strategies that simulate different usage patterns. Results show that iterative code generation under stepwise requirement refinement remains highly challenging: the best-performing model achieves only 22.67% completion rate on function-level tasks and 20.00% on repository-level tasks. We further observe that prompting strategies substantially influence performance, highlighting the need for the development of advanced methods.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。
しかし、既存のベンチマークは主に静的な単一ターン問題としてタスクを形式化し、実世界のソフトウェア開発におけるステップワイドな要件変更と反復的なワークフローを見下ろしている。
このミスマッチは、LLMが現実世界の開発ワークフローをどのようにサポートできるかの理解を制限する。
このような反復ベンチマークの構築は、公開インタラクショントレースの欠如と、差別的でターン固有のテストケースを作成するのが難しいため、難しい。
このギャップを埋めるため,ステップワイド要求再定義に基づく反復コード生成におけるLLMの評価に特化して設計されたベンチマークSR-Evalを提案する。
SR-EvalはPythonとJavaの関数レベルタスクとリポジトリレベルのタスクの両方にまたがっており、進化する要求に対してきめ細かい評価とプログレッシブ評価を可能にする。
SR-Evalの構築は、まずマルチエージェントベースの要求生成手法を利用して開発プロセスをシミュレートし、最終要求から複数ラウンドのインタラクションプロセスを復元する。
SR-Evalは443のマルチターンタスクと1,857の質問からなる。
SR-Evalを用いて、異なる利用パターンをシミュレートする3つのプロンプト戦略を用いて、11の代表的なLCMを評価した。
その結果、段階的な要求改善の下で反復的なコード生成は非常に困難であることが示され、最高のパフォーマンスモデルは、関数レベルのタスクで22.67%、リポジトリレベルのタスクで20.00%しか達成できない。
さらに、戦略の推進がパフォーマンスに大きく影響し、先進的な手法の開発の必要性が強調される。
関連論文リスト
- Dynamic Benchmark Construction for Evaluating Large Language Models on Real-World Codes [33.80591142965565]
CODE2BENCHは、実世界のGitHubリポジトリから、堅牢で汚染に強いベンチマークを動的に構築するためのパイプラインである。
特に、CODE2BENCHは、(1) トレーニングデータの汚染を最小限に抑えるために、最近のコードの周期的取り込みによって達成される自動ダイナミズム、(2) 依存レベルの制御されたベンチマークインスタンスへの関数の構造化可能なスコープグラフベースの依存性分析、(3) 厳密なテストスイートの自動合成のためのプロパティベーステスト(PBT)の3つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-08-10T05:06:36Z) - EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [64.70546873396624]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。
EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。
また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:39:55Z) - How Effective are Generative Large Language Models in Performing Requirements Classification? [4.429729688079712]
本研究では,2次および複数クラスの要件分類を行う3つの生成的大規模言語モデル(LLM)の有効性について検討した。
我々の研究は、素早い設計やLLMアーキテクチャといった要因は普遍的に重要であるが、データセットのバリエーションなどの要因は、分類作業の複雑さに応じて、より状況に影響を及ぼすと結論付けている。
論文 参考訳(メタデータ) (2025-04-23T14:41:11Z) - TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。
オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。
以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-03-31T07:43:12Z) - Continual LLaVA: Continual Instruction Tuning in Large Vision-Language Models [93.5327725085853]
連続LLaVA(Continuous LLaVA)は、LVLMにおける連続的な命令チューニングに適したリハーサルフリーな手法である。
実験により,提案した連続LLaVAは,連続的な命令チューニング過程における忘れを著しく減らし,従来の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-04T19:55:32Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。