論文の概要: ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads?
- arxiv url: http://arxiv.org/abs/2602.19594v1
- Date: Mon, 23 Feb 2026 08:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.727773
- Title: ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads?
- Title(参考訳): ISO-Bench: エージェントは実世界の推論ワークロードを最適化できるか?
- Authors: Ayush Nangia, Shikhar Mishra, Aman Gokrani, Paras Chopra,
- Abstract要約: 実世界の推論タスクでその能力をテストするためのコーディングエージェントのベンチマークであるISO-Benchを紹介する。
統合プルリクエストから54のタスクをキュレートし、測定可能なパフォーマンスを改善しました。
- 参考スコア(独自算出の注目度): 0.8749675983608171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ISO-Bench, a benchmark for coding agents to test their capabilities on real-world inference optimization tasks. These tasks were taken from vLLM and SGLang, two of the most popular LLM serving frameworks. Each task provides an agent with a codebase and bottleneck description, whereby the agent must produce an optimization patch evaluated against expert human solutions. We curated 54 tasks from merged pull requests with measurable performance improvements. While existing benchmarks heavily use runtime-based metrics, such approaches can be gamed to pass tests without capturing the actual intent of the code changes. Therefore, we combine both hard (execution-based) and soft (LLM-based) metrics to show that both are necessary for complete evaluation. While evaluating both closed and open-source coding agents, we find no single agent dominates across codebases. Surprisingly, agents often identify correct bottlenecks but fail to execute working solutions. We also show that agents with identical underlying models differ substantially, suggesting scaffolding is as important as the model.
- Abstract(参考訳): 我々は,実世界の推論最適化タスクにおいて,その能力をテストするためのコーディングエージェントのベンチマークであるISO-Benchを紹介する。
これらのタスクは、最も人気のあるLLMサービスフレームワークであるvLLMとSGLangから取られた。
各タスクは、エージェントにコードベースとボトルネック記述を提供するので、エージェントは専門家の人間のソリューションに対して評価された最適化パッチを生成する必要がある。
統合プルリクエストから54のタスクをキュレートし、測定可能なパフォーマンスを改善しました。
既存のベンチマークでは、ランタイムベースのメトリクスが多用されているが、このようなアプローチは、コード変更の実際の意図をキャプチャすることなく、テストに合格することができる。
したがって、ハード(実行ベース)とソフト(LLMベース)の2つのメトリクスを組み合わせて、どちらも完全な評価に必要であることを示す。
クローズドとオープンソースの両方のコーディングエージェントを評価しながら、コードベースで支配的なエージェントはひとつも見つからない。
驚いたことに、エージェントはしばしば正しいボトルネックを特定するが、動作するソリューションの実行に失敗する。
また、同一の基盤モデルを持つエージェントが著しく異なることを示し、足場がモデルと同じくらい重要であることを示唆する。
関連論文リスト
- Benchmark Test-Time Scaling of General LLM Agents [27.756239376314294]
General AgentBenchは、検索、コーディング、推論、ツール使用ドメインにわたる一般的なLLMエージェントを評価するためのベンチマークである。
ドメイン固有評価から一般エージェント設定に移行する際の性能劣化について検討する。
どちらのスケーリングも2つの基本的な制限のため、実行時の効果的なパフォーマンス改善にはならないことが分かりました。
論文 参考訳(メタデータ) (2026-02-22T01:08:02Z) - Agent-Diff: Benchmarking LLM Agents on Enterprise API Tasks via Code Execution with State-Diff-Based Evaluation [0.0]
Agent-Diffは、エージェント言語モデル(LLM)を、外部API経由でコードを実行する現実世界のタスクで評価するためのベンチマークフレームワークである。
エンタープライズソフトウェアを利用する224のタスクにまたがる9つのLLMのベンチマークを提供する。
また、ベンチマークパフォーマンスにおけるAPIドキュメントへのアクセスの寄与を評価するために、アブレーション実験によるフレームワークの堅牢性を評価する。
論文 参考訳(メタデータ) (2026-02-11T13:31:18Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - SWE-fficiency: Can Language Models Optimize Real-World Repositories on Real Workloads? [22.075705411944895]
SWE-fficiencyは、実際のワークロードにおけるリポジトリレベルのパフォーマンス最適化を評価するためのベンチマークである。
私たちのスイートには、9つの広く使用されているデータサイエンス、機械学習、HPCリポジトリにわたる498のタスクが含まれています。
論文 参考訳(メタデータ) (2025-11-08T17:55:09Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Distilling LLM Agent into Small Models with Retrieval and Code Tools [65.73762766854192]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。
その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-23T08:20:15Z) - AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [61.38499597241457]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。
ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。
また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文 参考訳(メタデータ) (2025-04-11T19:49:22Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z) - AgentQuest: A Modular Benchmark Framework to Measure Progress and Improve LLM Agents [19.439775106707344]
AgentQuestは、ベンチマークとメトリクスがモジュール化され、十分にドキュメント化され使いやすいAPIを通じて容易に利用できるフレームワークである。
課題を解決しながら LLM エージェントの進捗を確実に追跡できる2つの新しい評価指標を提供する。
一般的な障害点を特定し,エージェントアーキテクチャを洗練し,大幅な性能向上を実現する2つのユースケースにおけるメトリクスの有用性を実証する。
論文 参考訳(メタデータ) (2024-04-09T16:01:24Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。