論文の概要: REDO: Execution-Free Runtime Error Detection for COding Agents
- arxiv url: http://arxiv.org/abs/2410.09117v1
- Date: Thu, 10 Oct 2024 18:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 16:13:24.784938
- Title: REDO: Execution-Free Runtime Error Detection for COding Agents
- Title(参考訳): REDO: 符号化エージェントの実行不要な実行時エラー検出
- Authors: Shou Li, Andrey Kan, Laurent Callot, Bhavana Bhasker, Muhammad Shihab Rashid, Timothy B Esler,
- Abstract要約: Execution-free Error Detection for Coding Agents (REDO)は、実行時のエラーと静的解析ツールを統合する方法である。
我々はREDOが11.0%の精度と9.1%の重み付きF1スコアを達成し、最先端の手法よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 3.9903610503301072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLM-based agents exhibit exceptional capabilities in addressing complex problems, there is a growing focus on developing coding agents to tackle increasingly sophisticated tasks. Despite their promising performance, these coding agents often produce programs or modifications that contain runtime errors, which can cause code failures and are difficult for static analysis tools to detect. Enhancing the ability of coding agents to statically identify such errors could significantly improve their overall performance. In this work, we introduce Execution-free Runtime Error Detection for COding Agents (REDO), a method that integrates LLMs with static analysis tools to detect runtime errors for coding agents, without code execution. Additionally, we propose a benchmark task, SWE-Bench-Error-Detection (SWEDE), based on SWE-Bench (lite), to evaluate error detection in repository-level problems with complex external dependencies. Finally, through both quantitative and qualitative analyses across various error detection tasks, we demonstrate that REDO outperforms current state-of-the-art methods by achieving a 11.0% higher accuracy and 9.1% higher weighted F1 score; and provide insights into the advantages of incorporating LLMs for error detection.
- Abstract(参考訳): LLMベースのエージェントは複雑な問題に対処する際、例外的な能力を示すため、より高度なタスクに取り組むためのコーディングエージェントの開発に注目が集まっている。
有望なパフォーマンスにもかかわらず、これらのコーディングエージェントは多くの場合、実行時エラーを含むプログラムや修正を生成する。
このようなエラーを静的に識別するコーディングエージェントの能力を強化することで、全体的なパフォーマンスが大幅に向上する可能性がある。
本研究では,コーディングエージェントの実行時エラーをコード実行なしで検出する静的解析ツールとLLMを統合した,実行時エラー検出(REDO)を提案する。
さらに,SWE-Bench (lite) に基づくSWE-Bench-Error-Detection (SWEDE) というベンチマークタスクを提案し,複雑な外部依存関係を持つリポジトリレベルの問題においてエラー検出を行う。
最後に,様々な誤り検出タスクの定量的および定性的な解析により,REDOは11.0%の精度と9.1%の重み付きF1スコアを達成し,現在の最先端手法よりも優れた性能を示し,誤り検出にLLMを組み込むことの利点について考察する。
関連論文リスト
- Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories [8.583591493627276]
JitVulは、各関数をその脆弱性導入とコミットの修正にリンクする脆弱性検出ベンチマークである。
思考・行動・観察と相互言語的文脈を活用するReAct Agentsは,良性のあるコードと区別する上で,LLMよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-03-05T15:22:24Z) - Focused-DPO: Enhancing Code Generation Through Focused Preference Optimization on Error-Prone Points [51.40935517552926]
Focused-DPOは、優先度最適化を重要なエラー発生箇所に向けることで、コード生成を強化するフレームワークである。
エラーを起こしやすい点に焦点を当てることで、Focused-DPOはモデル生成コードの正確性と機能を向上させる。
論文 参考訳(メタデータ) (2025-02-17T06:16:02Z) - Defining and Detecting the Defects of the Large Language Model-based Autonomous Agents [31.126001253902416]
本研究は,LLMエージェントの欠陥の同定と検出に焦点を当てた最初の研究である。
StackOverflowから6,854件の関連記事を収集し分析し、8種類のエージェント欠陥を定義しました。
以上の結果から,Agentableの総合精度は88.79%,リコール率は91.03%であった。
論文 参考訳(メタデータ) (2024-12-24T11:54:14Z) - EDA-Aware RTL Generation with Large Language Models [0.7831852829409273]
LLM(Large Language Models)は、RTLコードを生成するために人気が高まっている。
ゼロショット設定でエラーのないRTLコードを生成することは、最先端のLLMでも非常に難しい。
本稿では,構文と機能的エラーの反復的修正によるRTLコード生成の高速化を目的とした,自己検証型LLM非依存型エージェントフレームワークであるAIvril2を紹介する。
論文 参考訳(メタデータ) (2024-11-21T00:37:51Z) - SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - An Empirical Study on LLM-based Agents for Automated Bug Fixing [2.433168823911037]
大規模な言語モデル (LLM) と LLM ベースのエージェントが自動的にバグを修正するために適用されている。
自動バグ修正のためのSWE-bench Liteベンチマークにおいて,プロプライエタリでオープンソースな7つのシステムについて検討した。
論文 参考訳(メタデータ) (2024-11-15T14:19:15Z) - ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation [31.363781211927947]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
LLMはコード生成時にエラーの蓄積に影響を受けやすい。
コード生成のためのLLMにバックトラック機構とプログラム解析を統合したROCODEを提案する。
論文 参考訳(メタデータ) (2024-11-11T16:39:13Z) - Watson: A Cognitive Observability Framework for the Reasoning of LLM-Powered Agents [7.392058124132526]
ファウンデーションモデル(FM)はエージェントソフトウェアのような複雑なソフトウェアシステムにおいて、ますます顕著な役割を担っている。
高速思考の大規模言語モデル(LLM)は、レイテンシの制約のため、依然として好まれている。
暗黙の推論プロセスに推論可能性を提供するフレームワークであるWatsonを紹介します。
論文 参考訳(メタデータ) (2024-11-05T19:13:22Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - AutoSafeCoder: A Multi-Agent Framework for Securing LLM Code Generation through Static Analysis and Fuzz Testing [6.334110674473677]
既存のアプローチは、セキュアで脆弱性のないコードを生成するのに苦労するコード生成に、単一のエージェントに依存することが多い。
コード生成,脆弱性解析,セキュリティ強化にLLM駆動エージェントを活用するマルチエージェントフレームワークであるAutoSafeCoderを提案する。
私たちのコントリビューションは、コード生成中に反復的なプロセスで動的および静的なテストを統合することで、マルチエージェントコード生成の安全性を確保することに焦点を当てています。
論文 参考訳(メタデータ) (2024-09-16T21:15:56Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - Chain of Targeted Verification Questions to Improve the Reliability of Code Generated by LLMs [10.510325069289324]
LLMが生成するコードの信頼性向上を目的とした自己補充手法を提案する。
当社のアプローチは,初期コード内の潜在的なバグを特定するために,対象とする検証質問(VQ)に基づいています。
本手法は,LLMをターゲットとするVQと初期コードで再プロンプトすることで,潜在的なバグの修復を試みる。
論文 参考訳(メタデータ) (2024-05-22T19:02:50Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。