Fugu-MT 論文翻訳(概要): SpecRover: Code Intent Extraction via LLMs

論文の概要: SpecRover: Code Intent Extraction via LLMs

arxiv url: http://arxiv.org/abs/2408.02232v1
Date: Mon, 5 Aug 2024 04:53:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 14:36:03.793909
Title: SpecRover: Code Intent Extraction via LLMs
Title（参考訳）: SpecRover: LLMによるコードインテント抽出
Authors: Haifeng Ruan, Yuntong Zhang, Abhik Roychoudhury,
Abstract要約: 仕様推論は、高品質なプログラムパッチを作成するのに役立ちます。当社のアプローチであるSpecRover(AutoCodeRover-v2)は,オープンソースのLLMエージェントであるAutoCodeRover上に構築されています。 2294のGitHubイシューからなる完全なSWE-Benchの評価では、AutoCodeRoverよりも50%以上改善されている。
参考スコア（独自算出の注目度）: 7.742980618437681
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous program improvement typically involves automatically producing bug fixes and feature additions. Such program improvement can be accomplished by a combination of large language model (LLM) and program analysis capabilities, in the form of an LLM agent. Since program repair or program improvement typically requires a specification of intended behavior - specification inference can be useful for producing high quality program patches. In this work, we examine efficient and low-cost workflows for iterative specification inference within an LLM agent. Given a GitHub issue to be resolved in a software project, our goal is to conduct iterative code search accompanied by specification inference - thereby inferring intent from both the project structure and behavior. The intent thus captured is examined by a reviewer agent with the goal of vetting the patches as well as providing a measure of confidence in the vetted patches. Our approach SpecRover (AutoCodeRover-v2) is built on the open-source LLM agent AutoCodeRover. In an evaluation on the full SWE-Bench consisting of 2294 GitHub issues, it shows more than 50% improvement in efficacy over AutoCodeRover. Compared to the open-source agents available, our work shows modest cost ($0.65 per issue) in resolving an average GitHub issue in SWE-Bench lite. The production of explanation by SpecRover allows for a better "signal" to be given to the developer, on when the suggested patches can be accepted with confidence. SpecRover also seeks to demonstrate the continued importance of specification inference in automated program repair, even as program repair technologies enter the LLM era.
Abstract（参考訳）: 自動プログラムの改善は通常、バグ修正と機能追加を自動的に生成する。このようなプログラム改善は、LLMエージェントの形式で、大きな言語モデル(LLM)とプログラム解析機能を組み合わせることで達成できる。プログラムの修復やプログラムの改善は通常、意図した振る舞いの仕様を必要とするので、仕様推論は高品質なプログラムパッチを作成するのに役立ちます。本研究では,LLMエージェント内での反復的仕様推論のための効率的かつ低コストなワークフローについて検討する。ソフトウェアプロジェクトで解決すべきGitHubの問題を考えると、私たちのゴールは、仕様推論を伴う反復的なコード検索を行うことです。これらを捉えた意図は、レビューエージェントによって、パッチを検証するとともに、検証されたパッチに対する信頼性の尺度を提供することを目標として検査される。当社のアプローチであるSpecRover(AutoCodeRover-v2)は,オープンソースのLLMエージェントであるAutoCodeRover上に構築されています。 2294のGitHubイシューからなる完全なSWE-Benchの評価では、AutoCodeRoverよりも50%以上改善されている。利用可能なオープンソースエージェントと比較して、当社の作業は、SWE-Bench liteにおけるGitHubの平均的な問題を解決する上で、控えめなコスト(イシューあたり0.65ドル)を示しています。 SpecRoverによる説明の生成により、提案されたパッチが信頼できる形で受け入れられる場合において、より優れた"署名"が開発者に与えられるようになる。 SpecRoverはまた、プログラム修復技術がLLM時代に入ったとしても、自動プログラム修復における仕様推論の継続的な重要性を実証しようと試みている。

関連論文リスト

RelRepair: Enhancing Automated Program Repair by Retrieving Relevant Code [11.74568238259256]
RelRepairは関連するプロジェクト固有のコードを取得し、プログラムの自動修復を強化する。広く研究されている2つのデータセット、Defects4J V1.2 と ManySStuBs4J について RelRepair の評価を行った。
論文参考訳（メタデータ） (2025-09-20T14:07:28Z)
Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Is Your Automated Software Engineer Trustworthy? [0.850206009406913]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクでますます使われています。 LLMはすべての問題に応答し、入力があいまいであったり、出力が間違っていたとしても、すべてのケースに対してパッチを生成する。これは、幻覚的なコード変更や、あいまいな問題レポートに基づいたレスポンスといった、信頼性の低い振る舞いにつながります。我々は、LLMベースのソフトウェアエージェントが入力が未定義の場合に動作しないかどうかを評価するベンチマークであるBouncerBenchを紹介する。
論文参考訳（メタデータ） (2025-06-21T20:56:20Z)
Augmenting Large Language Models with Static Code Analysis for Automated Code Quality Improvements [0.36832029288386137]
本研究では,大規模言語モデル(LLM)をソフトウェア開発に組み込んだコード問題検出と修正自動化について検討した。静的コード分析フレームワークは、大規模なソフトウェアプロジェクトの中でバグや脆弱性、コードの臭いなどの問題を検出する。検索拡張世代(RAG)は、リビジョンの関連性と精度を高めるために実装される。
論文参考訳（メタデータ） (2025-06-12T03:39:25Z)
Repeton: Structured Bug Repair with ReAct-Guided Patch-and-Test Cycles [1.387448620257867]
大規模言語モデル(LLM)は、コード生成と理解において強力な能力を示しているが、複雑なソフトウェアエンジニアリングタスクへの応用は、しばしば低い精度と限定的な解釈可能性に悩まされている。実世界のGitの正確かつ自動化されたコード操作にLLMを活用する、完全にオープンソースなフレームワークであるRepetonを紹介します。
論文参考訳（メタデータ） (2025-06-09T19:36:40Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
A Comprehensive Survey of AI-Driven Advancements and Techniques in Automated Program Repair and Code Generation [0.0]
最近27の論文がレビューされ、2つのグループに分けられた。最初のグループは、意味的エラーの特定を含む、バグの検出と修復のための新しいメソッドで構成されている。 2つ目のグループはコード生成に精通しており、プログラミングとタスク固有のモデルのために微調整された汎用LLMの概要を提供している。また、識別子認識トレーニング、命令レベルでの微調整、セマンティックコード構造の導入など、コード生成を改善する方法も提示されている。
論文参考訳（メタデータ） (2024-11-12T06:47:54Z)
Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文参考訳（メタデータ） (2024-10-16T11:33:57Z)
Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。 Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文参考訳（メタデータ） (2024-07-01T17:24:45Z)
Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文参考訳（メタデータ） (2024-06-24T15:45:22Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
Aligning the Objective of LLM-based Program Repair [14.935596175148586]
本稿では,大規模言語モデル (LLM) をプログラム修復に適用するための新しいアプローチについて検討する。我々の中核的な洞察は、LLMのAPR能力は、単にトレーニング目標に出力を合わせるだけで大幅に改善できるということです。この知見に基づいて、我々はAPRの直接的なプロンプトフレームワークであるD4Cを設計した。
論文参考訳（メタデータ） (2024-04-13T02:36:40Z)
AutoCodeRover: Autonomous Program Improvement [8.66280420062806]
プログラムの改善を自律的に達成するために、GitHubの問題を解決する自動化アプローチを提案する。 AutoCodeRoverと呼ばれるアプローチでは、LLMは洗練されたコード検索機能と組み合わせられ、最終的にプログラムの変更やパッチにつながります。 SWE-bench-lite(300の現実のGitHubイシュー)の実験では、GitHubの問題を解決する効果が向上している(SWE-bench-liteでは19%)。
論文参考訳（メタデータ） (2024-04-08T11:55:09Z)
Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文参考訳（メタデータ） (2024-02-06T20:38:46Z)
A Novel Approach for Automatic Program Repair using Round-Trip Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文参考訳（メタデータ） (2024-01-15T22:36:31Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。 RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。 RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文参考訳（メタデータ） (2023-09-12T08:52:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。