論文の概要: Comprehensive Evaluation of Large Language Models on Software Engineering Tasks: A Multi-Task Benchmark
- arxiv url: http://arxiv.org/abs/2602.07079v1
- Date: Fri, 06 Feb 2026 03:30:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.42848
- Title: Comprehensive Evaluation of Large Language Models on Software Engineering Tasks: A Multi-Task Benchmark
- Title(参考訳): ソフトウェア工学タスクにおける大規模言語モデルの総合的評価:マルチタスクベンチマーク
- Authors: Go Frendi Gunawan, Mukhlis Amien,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学において顕著な能力を示している。
本稿では,5つのソフトウェアエンジニアリングタスクにまたがる11の最先端LCMのマルチタスク評価について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in software engineering, yet comprehensive benchmarks covering diverse SE activities remain limited. We present a multi-task evaluation of 11 state-of-the-art LLMs across five representative software engineering tasks: bug fixing, feature development, code refactoring, technical copywriting, and research synthesis. Our automated verification framework measures both output quality and completion efficiency. Key findings reveal that (1) models achieving identical perfect scores exhibit 22x variation in completion time, 49x variation in tool efficiency, and 53x variation in estimated cost; (2) tool usage frequency shows no correlation with success (r = 0.077, p = 0.575) - one model used 917 tool calls while another solved the same task with 3 calls; (3) we identify two distinct inefficiency patterns: loop inefficiency and inference inefficiency; and (4) coding tasks achieve 100 percent success while research tasks present greater challenges (90.9 percent). We release all experimental data, verification scripts, and analysis code for full reproducibility.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学において顕著な能力を示しているが、多種多様なSEアクティビティをカバーする包括的なベンチマークは、まだ限られている。
本稿では、バグ修正、機能開発、コードリファクタリング、技術的複写、研究合成という5つの代表的なソフトウェアエンジニアリングタスクにまたがって、11の最先端LCMをマルチタスクで評価する。
自動検証フレームワークは、出力品質と完了効率の両方を測定します。
その結果,(1)完了時間の22倍, ツール効率の49倍, 評価コストの53倍の変動を示すモデル, (2) ツール使用頻度は成功率と相関しない(r = 0.077, p = 0.575)モデル,(3) ループ非効率性と推論非効率性の2つの異なる非効率パターン,(4) コーディングタスクが100%成功し,研究タスクがより大きな課題(90.9%)を示した。
すべての実験データ、検証スクリプト、および完全な再現性のための解析コードをリリースする。
関連論文リスト
- Failure-Aware Enhancements for Large Language Model (LLM) Code Generation: An Empirical Study on Decision Framework [0.26508608365976566]
GitHubの25のプロジェクトに関する実証調査では、プログレッシブプロンプトが平均96.9%のタスク完了を達成した。
自己批判はコードレビュー可能なロジックエラーで成功するが、外部サービス統合では完全に失敗する。
RAGは、より優れた効率で、すべての障害タイプで最高の完成を達成する。
論文 参考訳(メタデータ) (2026-02-02T23:08:03Z) - Parameter-Efficient Multi-Task Fine-Tuning in Code-Related Tasks [4.347703075408796]
本稿では,コード生成,翻訳,要約という3つのタスクにまたがるマルチタスクQLoRAの微調整について検討する。
その結果,マルチタスクQLoRAは伝達学習を効果的に活用し,競争力や優れた性能を実現していることがわかった。
より大きなモデルは正しさと品質のバランスを保ち、より小さなモデルは機能を維持するが、品質に関する問題の発生頻度が高い。
論文 参考訳(メタデータ) (2026-01-21T15:33:16Z) - AgentMath: Empowering Mathematical Reasoning for Large Language Models via Tool-Augmented Agent [80.83250816918861]
o3やDeepSeek-R1のようなLarge Reasoning Models (LRM)は、長いチェーン・オブ・シークレットを持つ自然言語推論において顕著な進歩を遂げている。
しかし、計算的に非効率であり、複雑な数学的操作を必要とする問題を解く際には精度に苦しむ。
本稿では,言語モデルの推論能力とコードインタプリタの計算精度をシームレスに統合するエージェントフレームワークであるAgentMathを紹介する。
論文 参考訳(メタデータ) (2025-12-23T19:57:49Z) - The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution [86.4588675093384]
Toolathlonは、多様なアプリやツール、現実的な環境設定、信頼性の高い実行ベースの評価を提供する言語エージェントのベンチマークである。
このベンチマークには、手動でソースまたはクラフトされたタスクが108つ含まれており、平均20回以上にわたって複数のアプリと対話する必要がある。
Toolathlonは、より有能な言語エージェントを現実の長期タスク実行のために開発することを期待しています。
論文 参考訳(メタデータ) (2025-10-29T17:32:49Z) - Chain of Draft for Software Engineering: Challenges in Applying Concise Reasoning to Code Tasks [0.0]
本研究は,CoD(Chain of Draft)法をソフトウェア工学に拡張する。
すべてのCoD変種は、Chain of Thought (CoT)よりもかなり少ないトークンを使用した。
CoDの変種は、CoTのコード品質の90%以上を、正確性、互換性、保守性を含む主要なメトリクスで維持する。
論文 参考訳(メタデータ) (2025-03-12T07:44:18Z) - Code Review Automation Via Multi-task Federated LLM -- An Empirical Study [4.8342038441006805]
本研究は,2つの逐次法,1つの並列法,2つの累積法を含む,マルチタスクトレーニングのための5つの簡単な手法について検討した。
その結果,フェデレートされたLLM(FedLLM)をコードレビューのマルチタスクのユースケースで逐次トレーニングすることは,タスク毎に個別のモデルをトレーニングするよりも,時間,計算,パフォーマンスの指標の面で効率が低いことが示唆された。
論文 参考訳(メタデータ) (2024-12-20T08:46:46Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment [24.2553229691479]
大規模言語とマルチモーダルモデルは、特定のスキルに焦点を当てた様々なベンチマークで顕著な成功を収めている。
しかし、これらのモデルがこれらのスキルの組み合わせを必要とするタスクでどれだけうまく機能するかは不明だ。
本稿では,XLogoOnlineビジュアルプログラミング環境における実環境タスクに基づいて,新しいプログラム合成ベンチマークをキュレートする。
論文 参考訳(メタデータ) (2024-06-17T08:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。