Fugu-MT 論文翻訳(概要): AutoCodeSherpa: Symbolic Explanations in AI Coding Agents

論文の概要: AutoCodeSherpa: Symbolic Explanations in AI Coding Agents

arxiv url: http://arxiv.org/abs/2507.22414v1
Date: Wed, 30 Jul 2025 06:34:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-31 16:14:18.032808
Title: AutoCodeSherpa: Symbolic Explanations in AI Coding Agents
Title（参考訳）: AutoCodeSherpa: AIコーディングエージェントにおけるシンボル的説明
Authors: Sungmin Kang, Haifeng Ruan, Abhik Roychoudhury,
Abstract要約: 大きな言語モデル(LLM)エージェントは、特定のタスクを達成するために、1つ以上のLLMの上に外部ツールを自律的に使用する。近年,ソフトウェア工学タスクのLLMエージェントが普及している。これはAutoCodeRoverやSpecRoverといった、プログラムの自動修復を実行する既存のエージェントAIソリューションによって実証されている。
参考スコア（独自算出の注目度）: 10.706082274730734
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Model (LLM) agents autonomously use external tools on top of one or more LLMs to accomplish specific tasks. Lately LLM agents for software engineering tasks have become popular. These agents can benefit from the use of program analysis tools working on program representations. This is demonstrated by existing agentic AI solutions such as AutoCodeRover or SpecRover which perform automated program repair. Specifically the goal of these works is to use program analysis to improve the patch quality. These agents are currently being used to automatically fix static analysis issues from the widely used SonarQube static analyzer. Nevertheless, for the agents to be deployed in a production environment, agents need to suggest software artifacts, such as patches, with evidence and with high confidence. In this work, we provide a workflow where an agent provides explanations of the bug in the form of symbolic formulae. The explanations are in the form of input conditions, infection conditions and output conditions, implemented as property based tests (PBT) and program-internal symbolic expressions. These can help in human developer cognition of the agent outputs as well as in achieving completely automated agentic workflows for software. The human developer can benefit from the input condition, represented as a PBT, to generate various concrete inputs showing a given issue. Furthermore, since the PBTs are executable, our explanations are executable as well. We can thus also use the explanations in a completely automated issue resolution environment for accepting or rejecting the patches that are suggested by patching agents such as AutoCodeRover. Finally, as agentic AI approaches continue to develop, the program analysis driven explanations can be provided to other LLM-based repair techniques such as Agentless to improve their output.
Abstract（参考訳）: 大きな言語モデル(LLM)エージェントは、特定のタスクを達成するために、1つ以上のLLMの上に外部ツールを自律的に使用する。近年,ソフトウェア工学タスクのLLMエージェントが普及している。これらのエージェントは、プログラム表現に取り組んでいるプログラム分析ツールの使用の恩恵を受けることができる。これはAutoCodeRoverやSpecRoverといった、プログラムの自動修復を実行する既存のエージェントAIソリューションによって実証されている。特に、これらの作業の目標は、プログラム分析を使用してパッチの品質を改善することです。これらのエージェントは現在、広く使用されているSonarQube静的アナライザの静的解析問題を自動的に修正するために使用されている。それでも、エージェントが本番環境にデプロイされるためには、エージェントは、パッチのようなソフトウェアアーティファクトを、証拠を持って、高い信頼を持って提案する必要がある。本研究では,エージェントがシンボル式という形でバグの説明を行うワークフローを提供する。これらの説明は、入力条件、感染条件、出力条件の形式で、プロパティベーステスト(PBT)およびプログラム内部のシンボル表現として実装されている。これらは、ソフトウェアのための完全に自動化されたエージェントワークフローを達成するだけでなく、人間の開発者のエージェントアウトプット認識にも役立ちます。人間の開発者は、与えられた問題を示す様々な具体的な入力を生成するために、PBTとして表される入力条件の恩恵を受けることができる。さらに, PBTは実行可能であるため, 我々の説明も実行可能である。したがって、AutoCodeRoverのようなパッチエージェントによって提案されるパッチを受け入れるか拒否するために、完全に自動化されたイシュー解決環境でも、説明を使うことができる。最後に、エージェントAIアプローチが発展を続けるにつれて、プログラム分析による説明は、Agentlessのような他のLLMベースの修復技術に提供され、出力を改善することができる。

関連論文リスト

Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Unified Software Engineering agent as AI Software Engineer [14.733475669942276]
大規模言語モデル(LLM)技術は、自動コーディングに対する期待を高めた。本稿では,統一ソフトウェア工学エージェントやUSEagentを開発することによって,この問題を理解することを目的とする。私たちはUSEagentを、AIと人間の両方を含む将来のソフトウェア開発チームのチームメンバーになる、将来のAIソフトウェアエンジニアの最初のドラフトとして考えています。
論文参考訳（メタデータ） (2025-06-17T16:19:13Z)
ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。 ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文参考訳（メタデータ） (2025-05-29T17:59:38Z)
LLM Agents Making Agent Tools [2.5529148902034637]
ツールの使用は、大規模言語モデル(LLM)を、複雑なマルチステップタスクを実行できる強力なエージェントに変えた。しかし、これらのツールは人間の開発者によって事前に実装されなければならない。論文をコードで自律的にLLM互換のツールに変換するエージェントフレームワークであるToolMakerを提案する。
論文参考訳（メタデータ） (2025-02-17T11:44:11Z)
Defining and Detecting the Defects of the Large Language Model-based Autonomous Agents [31.126001253902416]
本研究は,LLMエージェントの欠陥の同定と検出に焦点を当てた最初の研究である。 StackOverflowから6,854件の関連記事を収集し分析し、8種類のエージェント欠陥を定義しました。以上の結果から,Agentableの総合精度は88.79%,リコール率は91.03%であった。
論文参考訳（メタデータ） (2024-12-24T11:54:14Z)
Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。 Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文参考訳（メタデータ） (2024-07-01T17:24:45Z)
Alibaba LingmaAgent: Improving Automated Issue Resolution via Comprehensive Repository Exploration [64.19431011897515]
本稿では,問題解決のためにソフトウェアリポジトリ全体を包括的に理解し,活用するために設計された,新しいソフトウェアエンジニアリング手法であるAlibaba LingmaAgentを提案する。提案手法では,重要なリポジトリ情報を知識グラフに凝縮し,複雑さを低減し,モンテカルロ木探索に基づく戦略を採用する。 Alibaba Cloudの製品展開と評価において、LingmaAgentは、開発エンジニアが直面した社内問題の16.9%を自動で解決し、手作業による介入で43.3%の問題を解決した。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。 NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文参考訳（メタデータ） (2024-04-23T01:46:32Z)
A Preliminary Study on Using Large Language Models in Software Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文参考訳（メタデータ） (2024-01-30T21:42:59Z)
ProAgent: From Robotic Process Automation to Agentic Process Automation [87.0555252338361]
LLM(Large Language Models)は、人間のような知性を持つ言語である。本稿では,ALMをベースとしたエージェントを用いた高度な自動化のための基盤的自動化パラダイムであるエージェントプロセス自動化(APA)を紹介する。そして、人間の指示を駆使し、特殊エージェントの調整によって複雑な決定を下すように設計されたエージェントであるProAgentをインスタンス化する。
論文参考訳（メタデータ） (2023-11-02T14:32:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。