論文の概要: Evaluating Agentic Optimization on Large Codebases
- arxiv url: http://arxiv.org/abs/2603.16011v1
- Date: Mon, 16 Mar 2026 23:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.04225
- Title: Evaluating Agentic Optimization on Large Codebases
- Title(参考訳): 大規模コードベースにおけるエージェント最適化の評価
- Authors: Atharva Sehgal, James Hou, Akanksha Sarkar, Ishaan Mantripragada, Swarat Chaudhuri, Jennifer J. Sun, Yisong Yue,
- Abstract要約: フォーミュラコード(英: FormulaCode)は、大規模で多目的なパフォーマンスメトリクスを持つ実世界のエージェント最適化を評価するためのベンチマークである。
フォーミュラコードには、GitHub上の科学Pythonリポジトリから抽出された957のパフォーマンスボトルネックが含まれている。
- 参考スコア(独自算出の注目度): 35.87228964682258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) coding agents increasingly operate at the repository level, motivating benchmarks that evaluate their ability to optimize entire codebases under realistic constraints. Existing code benchmarks largely rely on synthetic tasks, binary correctness signals, or single-objective evaluation, limiting their ability to assess holistic optimization behavior. We introduce FormulaCode, a benchmark for evaluating agentic optimization on large, real-world codebases with fine-grained, multi-objective performance metrics. FormulaCode comprises 957 performance bottlenecks mined from scientific Python repositories on GitHub, each paired with expert-authored patches and, on average, 264.6 community-maintained performance workloads per task, enabling the holistic ability of LLM agents to optimize codebases under realistic correctness and performance constraints. Our evaluations reveal that repository-scale, multi-objective optimization remains a major challenge for frontier LLM agents. Project website at: https://formula-code.github.io
- Abstract(参考訳): 大規模言語モデル(LLM)コーディングエージェントはリポジトリレベルでますます運用され、現実的な制約の下でコードベース全体を最適化する能力を評価するベンチマークを動機付けている。
既存のコードベンチマークは、合成タスク、バイナリの正当性信号、または単目的評価に大きく依存しており、全体的な最適化動作を評価する能力を制限する。
我々は,大規模で多目的なパフォーマンス指標を持つ実世界のコードベース上でエージェント最適化を評価するためのベンチマークであるFulallimentCodeを紹介した。
フォーミュラコードには、GitHub上の科学的なPythonリポジトリから抽出された957のパフォーマンスボトルネックがあり、それぞれが専門家が承認したパッチとペアで、平均264.6のコミュニティがタスクごとに維持するパフォーマンスワークロードで構成されている。
評価の結果,レポジトリスケールの多目的最適化は依然としてフロンティアのLLMエージェントにとって大きな課題であることがわかった。
Project website at https://formula-code.github.io
関連論文リスト
- SparseEval: Efficient Evaluation of Large Language Models by Sparse Optimization [64.95852289011385]
大規模言語モデル(LLM)は拡大を続けており、様々な下流タスクのパフォーマンスは大幅に改善されている。
多数のベンチマークサンプルで推論を行うと、高い計算コストが発生するため、それらの能力を評価するのがますます高価になっている。
SparseEvalは,アンカーウェイトを最適化する勾配降下法を初めて導入し,アンカーセレクションに反復的洗練戦略を採用する手法である。
論文 参考訳(メタデータ) (2026-02-08T11:12:45Z) - MaxCode: A Max-Reward Reinforcement Learning Framework for Automated Code Optimization [44.27213441671799]
大きな言語モデル(LLM)は、一般的なコーディングタスクにおいて強力な能力を示すが、コードの最適化には2つの重要な課題に直面する。
本研究では,LLMがよりよい解を見つけるための推論時間探索アルゴリズムについて検討する。
MaxCodeと呼ばれる我々の手法は、マックス・リワード強化学習フレームワークの下で既存の検索方法を統一する。
論文 参考訳(メタデータ) (2026-01-09T02:21:28Z) - FasterPy: An LLM-based Code Execution Efficiency Optimization Framework [11.766544835516974]
コードはしばしばパフォーマンスのバグに悩まされる。
従来のルールベースのメソッドは、特定のパフォーマンスバグに対するルールを手動で設計し、保守することに依存しています。
我々は,Pythonコードの実行効率を最適化するために,大規模言語モデルを適用するフレームワークであるFasterPyを提案する。
論文 参考訳(メタデータ) (2025-12-28T07:43:08Z) - SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads? [22.075705411944895]
SWE-fficiencyは、実際のワークロードにおけるリポジトリレベルのパフォーマンス最適化を評価するためのベンチマークである。
私たちのスイートには、9つの広く使用されているデータサイエンス、機械学習、HPCリポジトリにわたる498のタスクが含まれています。
論文 参考訳(メタデータ) (2025-11-08T17:55:09Z) - SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories? [32.67971774793393]
SWE-Perfは、認証されたリポジトリコンテキスト内のコードパフォーマンス最適化タスクにおいて、LLM(Large Language Models)を評価するために設計された最初のベンチマークである。
SWE-Perfは140の慎重にキュレートされたインスタンスで構成されており、それぞれが人気のあるGitHubリポジトリのパフォーマンス改善プルリクエストに由来する。
論文 参考訳(メタデータ) (2025-07-16T17:05:17Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。