論文の概要: Evaluating LLM Agents on Automated Software Analysis Tasks
- arxiv url: http://arxiv.org/abs/2604.11270v1
- Date: Mon, 13 Apr 2026 10:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.471285
- Title: Evaluating LLM Agents on Automated Software Analysis Tasks
- Title(参考訳): 自動ソフトウェア分析タスクにおけるLCMエージェントの評価
- Authors: Michael Pradel, Cristian Cadar, Islem Bouzenia,
- Abstract要約: 7つの分析ツールと10種類のC/C++およびJavaプロジェクトからなる35のツール-プロジェクトペアのベンチマークであるAnalyticBenchを紹介した。
私たちのカスタムエージェントであるAnalyticAgentは、ベストベースライン(ExecutionAgent)の77%に比べて、手動で94%(Gemini-3-Flash、33/35タスク)の成功率を証明します。
ステージミキシング, エラーローカライゼーションの低さ, 早期終了など, 既存のエージェントの鍵となる制約を同定する。
- 参考スコア(独自算出の注目度): 15.993527047472531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous software analysis tools exist today, yet applying them to diverse open-source projects remains challenging due to environment setup, dependency resolution, and tool configuration. LLM-based agents offer a potential solution, yet no prior work has systematically studied their effectiveness on the specific task of automated software analysis, which, unlike issue solving or general environment setup, requires installing and configuring a separate analysis tool alongside the target project, generating tool-specific prerequisites, and validating that the tool produces meaningful analysis outputs. We introduce AnalysisBench, a benchmark of 35 tool-project pairs spanning seven analysis tools and ten diverse C/C++ and Java projects, each with a manually constructed reference setup. Using AnalysisBench, we evaluate four agent architectures across four LLM backends. Our custom agent, AnalysisAgent, achieves manually verified success rates of 94% (Gemini-3-Flash, 33/35 tasks), compared to 77% for the best baseline (ExecutionAgent). Beyond quantitative results, we identify key limitations in existing agents, including stage mixing, poor error localization, and premature termination, and show that agentic architecture matters more than LLM capability alone. We further find that whole-program analyses and symbolic execution are the most difficult tasks, that Java toolchains pose greater challenges than C/C++, and that LLM-self-validated success consistently overstates manually verified success.
- Abstract(参考訳): 現在、多くのソフトウェア分析ツールが存在するが、環境の設定、依存関係の解決、ツールの設定などにより、さまざまなオープンソースプロジェクトに適用することは難しい。
LLMベースのエージェントは潜在的な解決策を提供するが、問題の解決や一般的な環境設定とは異なり、ツール固有の前提条件を生成し、ツールが意味のある分析アウトプットを生成することを検証する必要がある、自動化されたソフトウェア分析の特定のタスクにおいて、その効果を体系的に研究する以前の研究は行われていない。
7つの分析ツールと10の多様なC/C++およびJavaプロジェクトからなる35のツール-プロジェクトペアのベンチマークであるAnalyticBenchを紹介した。
AnalysisBenchを用いて、4つのLLMバックエンドにまたがる4つのエージェントアーキテクチャを評価する。
当社のカスタムエージェントであるAnalyticAgentは、ベストベースライン(ExecutionAgent)の77%に対して、手動で検証された成功率94%(Gemini-3-Flash、33/35タスク)を実現しています。
定量的な結果の他に,ステージ混合,エラーローカライゼーションの低さ,早期終了など,既存のエージェントのキーとなる制約を同定し,エージェントアーキテクチャがLLM能力以外にも重要であることを示す。
さらに、プログラム全体の分析とシンボリック実行が最も難しいタスクであること、JavaツールチェーンがC/C++よりも大きな課題を生じていること、LCM自身で検証した成功が一貫して、手作業で検証された成功を誇張していること、などが分かりました。
関連論文リスト
- EvolveTool-Bench: Evaluating the Quality of LLM-Generated Tool Libraries as Software Artifacts [0.0]
ソフトウェア工学におけるツールライブラリの診断ベンチマークであるEvolveToolBenchを紹介する。
ライブラリレベルのソフトウェア品質メトリクス -- 再利用、冗長性、コンポジションの成功、回帰、安全性 -- を定義します。
課題完了度が類似したシステムでは,図書館の健康状態が最大18%異なっており,タスクのみの評価ではソフトウェア品質のリスクが見えないことが明らかとなった。
論文 参考訳(メタデータ) (2026-04-01T02:21:55Z) - The Evolution of Tool Use in LLM Agents: From Single-Tool Call to Multi-Tool Orchestration [58.61149924275458]
ツールの使用により、大きな言語モデルが外部情報にアクセスし、ソフトウェアシステムを実行し、モデルパラメータだけで解決できるもの以外のデジタル環境で動作することができる。
エージェントシステムが進化するにつれて、中央の問題は、中途半端な状態、実行フィードバック、環境の変化、安全性、コスト、検証可能性といった実践的な制約によって、孤立呼び出しからマルチツールオーケストレーションへと移行した。
推論時の計画と実行、トレーニングと軌道構築、安全と制御、リソース制約下での効率性、オープン環境における能力の完全性、およびベンチマーク設計と評価の6つの分野に関する文献を整理する。
論文 参考訳(メタデータ) (2026-03-24T07:05:05Z) - Can Language Models Go Beyond Coding? Assessing the Capability of Language Models to Build Real-World Systems [44.748487030119]
大規模言語モデル(LLM)は、ソフトウェア工学における潜在的な可能性を示している。
命令セットアーキテクチャ(ISA)間のマイグレーション中にソフトウェアを修復する能力を評価するベンチマークは少ない。
論文 参考訳(メタデータ) (2025-11-02T03:23:07Z) - SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文 参考訳(メタデータ) (2025-07-11T22:45:07Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。