論文の概要: CL4SE: A Context Learning Benchmark For Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2602.23047v1
- Date: Thu, 26 Feb 2026 14:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.721144
- Title: CL4SE: A Context Learning Benchmark For Software Engineering Tasks
- Title(参考訳): CL4SE: ソフトウェアエンジニアリングタスクのためのコンテキスト学習ベンチマーク
- Authors: Haichuan Hu, Ye Shang, Guoqing Xie, Congqing He, Quanjun Zhang,
- Abstract要約: コンテキストエンジニアリングは、ソフトウェア工学(SE)タスクにおいて、LLM(Large Language Models)の可能性を解き放つための重要なパラダイムとして登場した。
既存の研究には、SE固有のコンテキストタイプの体系的な分類と、異なるコンテキストの効果を定量化する専用のベンチマークが欠けている。
CL4SE (Context Learning for Software Engineering) は,4つのSE指向のコンテキストタイプを詳細に分類した総合的なベンチマークである。
30以上のオープンソースプロジェクトから13,000以上のサンプルからなる高品質なデータセットを構築し、9つの指標で5つの主流を評価します。
- 参考スコア(独自算出の注目度): 7.899464362501583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context engineering has emerged as a pivotal paradigm for unlocking the potential of Large Language Models (LLMs) in Software Engineering (SE) tasks, enabling performance gains at test time without model fine-tuning. Despite its success, existing research lacks a systematic taxonomy of SE-specific context types and a dedicated benchmark to quantify the heterogeneous effects of different contexts across core SE workflows. To address this gap, we propose CL4SE (Context Learning for Software Engineering), a comprehensive benchmark featuring a fine-grained taxonomy of four SE-oriented context types (interpretable examples, project-specific context, procedural decision-making context, and positive & negative context), each mapped to a representative task (code generation, code summarization, code review, and patch correctness assessment). We construct high-quality datasets comprising over 13,000 samples from more than 30 open-source projects and evaluate five mainstream LLMs across nine metrics. Extensive experiments demonstrate that context learning yields an average performance improvement of 24.7% across all tasks. Specifically, procedural context boosts code review performance by up to 33% (Qwen3-Max), mixed positive-negative context improves patch assessment by 30% (DeepSeek-V3), project-specific context increases code summarization BLEU by 14.78% (GPT-Oss-120B), and interpretable examples enhance code generation PASS@1 by 5.72% (DeepSeek-V3). CL4SE establishes the first standardized evaluation framework for SE context learning, provides actionable empirical insights into task-specific context design, and releases a large-scale dataset to facilitate reproducible research in this domain.
- Abstract(参考訳): コンテキストエンジニアリングは、ソフトウェア工学(SE)タスクにおいて、LLM(Large Language Models)の可能性を解き放つための重要なパラダイムとして登場した。
その成功にもかかわらず、既存の研究には、SE固有のコンテキストタイプの体系的な分類と、コアSEワークフロー間で異なるコンテキストの不均一な影響を定量化する専用のベンチマークが欠けている。
CL4SE(Context Learning for Software Engineering)は、4つのSE指向コンテキストタイプ(解釈例,プロジェクト固有のコンテキスト,手続き的意思決定コンテキスト,肯定的および否定的コンテキスト)の詳細な分類を特徴とする総合的なベンチマークであり,それぞれが代表タスク(コード生成,コード要約,コードレビュー,パッチ正当性評価)にマッピングされる。
我々は、30以上のオープンソースプロジェクトから13,000以上のサンプルからなる高品質なデータセットを構築し、9つのメトリクスで5つの主要なLCMを評価した。
大規模な実験により、コンテキスト学習は全てのタスクで平均24.7%の性能向上をもたらすことが示された。
具体的には、手続き的コンテキストは、コードレビューのパフォーマンスを最大33%(Qwen3-Max)、混合正負のコンテキストはパッチアセスメントを30%(DeepSeek-V3)、プロジェクト固有のコンテキストは、コードの要約を14.78%(GPT-Oss-120B)、解釈可能な例は、コード生成PASS@1を5.72%(DeepSeek-V3)改善する。
CL4SEは、SEコンテキスト学習のための最初の標準化された評価フレームワークを確立し、タスク固有のコンテキスト設計に関する実行可能な実証的な洞察を提供し、この領域での再現可能な研究を促進するために大規模なデータセットをリリースする。
関連論文リスト
- Private PoEtry: Private In-Context Learning via Product of Experts [58.496468062236225]
In-context Learning (ICL) は、大規模言語モデルが推論時に少数の例だけで新しいタスクに適応できるようにする。
ICLに対する既存の差分プライバシーアプローチは、計算コストが高いか、オーバーサンプリング、合成データ生成、あるいは不要なしきい値設定に依存している。
我々は、Product-of-Expertsモデルのレンズを通してプライベートICLを再構成し、理論的に基盤付けられたフレームワークを与え、アルゴリズムを自明に並列化することができる。
本手法は,従来のDP-ICL法と比較して平均30ポイント以上精度が向上し,高いプライバシー保証を維持した。
論文 参考訳(メタデータ) (2026-02-04T19:56:24Z) - Assessing and Improving the Representativeness of Code Generation Benchmarks Using Knowledge Units (KUs) of Programming Languages -- An Empirical Study [7.0773305889955616]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを示している。
LLMは幅広い言語概念を理解し、適用しなければならない。
ベンチマークで実施される概念が現実世界のプロジェクトで使用される概念を代表していない場合、評価は不完全になる可能性がある。
論文 参考訳(メタデータ) (2026-01-07T10:23:33Z) - CoT4Det: A Chain-of-Thought Framework for Perception-Oriented Vision-Language Tasks [53.88194225946438]
Chain-of-Thought for Detection (CoT4Det)は、知覚タスクを3つの解釈可能なステップに再構成するシンプルだが効率的な戦略である。
一般的な視覚言語能力を損なうことなく,CoT4Detは認識性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-12-07T05:26:30Z) - Beyond Synthetic Benchmarks: Evaluating LLM Performance on Real-World Class-Level Code Generation [3.9189409002585567]
大規模言語モデル(LLM)は関数レベルのコード生成ベンチマークで強い性能を示している。
本稿では,実環境下での一般化を評価するために,実世界のオープンソースリポジトリから得られたベンチマークを紹介する。
入力仕様の完全性と検索拡張生成が複数の最先端LCMのクラスレベルの正しさにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-10-30T04:30:23Z) - Clarifying Before Reasoning: A Coq Prover with Structural Context [13.273599284897411]
タスクの明度を評価するための概念レベルメトリクスを導入し、構造化された意味コンテキストを追加すると、明度スコアが1.85$times$改善されることを示す。
我々は15の標準Coqパッケージからランダムにサンプリングされた1,386の定理でこれを評価した。
論文 参考訳(メタデータ) (2025-07-03T11:35:34Z) - A Hierarchical and Evolvable Benchmark for Fine-Grained Code Instruction Following with Multi-Turn Feedback [30.446511584123492]
大規模言語モデル(LLM)はコード生成において著しく進歩しているが、階層化され多様な制約を持つ複雑なプログラミング命令に従う能力はいまだ探索されていない。
複数次元にわたるコード生成における命令追従の評価を目的とした総合ベンチマークであるMultiCodeIFを紹介する。
我々は14のプログラミング言語から得られた2,021のコードタスクを合成し、進化させ、フィードバック駆動型タスク変種によるマルチターン評価をサポートする。
論文 参考訳(メタデータ) (2025-07-01T11:51:40Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Larger-Context Tagging: When and Why Does It Work? [55.407651696813396]
一般的な戦略として、より大規模なコンテキストトレーニングがいつ、なぜ機能するのかを調査することに注力する。
4つのタグ付けタスクと13のデータセットに基づいてテストベッドを設定しました。
論文 参考訳(メタデータ) (2021-04-09T15:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。