Fugu-MT 論文翻訳(概要): CodeAgent: Collaborative Agents for Software Engineering

論文の概要: CodeAgent: Collaborative Agents for Software Engineering

arxiv url: http://arxiv.org/abs/2402.02172v4
Date: Fri, 28 Jun 2024 11:48:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 21:44:37.939889
Title: CodeAgent: Collaborative Agents for Software Engineering
Title（参考訳）: CodeAgent: ソフトウェアエンジニアリングのためのコラボレーションエージェント
Authors: Daniel Tang, Kisub Kim, Yewei Song, Cedric Lothritz, Bei Li, Saad Ezzini, Haoye Tian, Jacques Klein, Tegawende F. Bissyande,
Abstract要約: コードレビューは、ソフトウェアの全体的な品質と信頼性を保証することを目的としている。既存の自動手法は単一入力出力生成モデルに依存している。コードレビュー自動化のための新しいマルチエージェント大規模言語モデル(LLM)システムであるCodeAgentを紹介する。
参考スコア（独自算出の注目度）: 11.476666454138021
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code review, which aims at ensuring the overall quality and reliability of software, is a cornerstone of software development. Unfortunately, while crucial, Code review is a labor-intensive process that the research community is looking to automate. Existing automated methods rely on single input-output generative models and thus generally struggle to emulate the collaborative nature of code review. This work introduces CodeAgent, a novel multi-agent Large Language Model (LLM) system for code review automation. CodeAgent incorporates a supervisory agent, QA-Checker, to ensure that all the agents' contributions address the initial review question. We evaluated CodeAgent on critical code review tasks: (1) detect inconsistencies between code changes and commit messages, (2) identify vulnerability introductions, (3) validate code style adherence, and (4) suggest code revisions. The results demonstrate CodeAgent's effectiveness, contributing to a new state-of-the-art in code review automation. Our data and code are publicly available (\url{https://github.com/Code4Agent/codeagent}).
Abstract（参考訳）: コードレビューは、ソフトウェアの全体的な品質と信頼性を保証することを目的としています。残念なことに、コードレビューは、研究コミュニティが自動化しようとしている労働集約的なプロセスである。既存の自動手法は単一入力出力生成モデルに依存しており、コードレビューの協調的な性質をエミュレートするのに一般的に苦労している。コードレビュー自動化のための新しいマルチエージェント大規模言語モデル(LLM)システムであるCodeAgentを紹介する。 CodeAgentには監督エージェントであるQA-Checkerが組み込まれており、すべてのエージェントのコントリビューションが初期レビュー問題に対処することを保証している。 1) コード変更とコミットメッセージの不整合の検出,(2) 脆弱性の導入の識別,(3) コードスタイルの遵守の検証,(4) コード修正を提案する。その結果、CodeAgentの有効性が示され、コードレビュー自動化の新たな最先端に寄与した。私たちのデータとコードは公開されています(\url{https://github.com/Code4Agent/codeagent})。

関連論文リスト

Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。モデル、足場、ベンチマークにまたがる3次元解析を行う。私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文参考訳（メタデータ） (2025-10-13T22:22:28Z)
RedCodeAgent: Automatic Red-teaming Agent against Diverse Code Agents [70.24175620901538]
コードエージェントは、強力なコード生成機能とコードインタプリタとの統合により、広く採用されている。現在の静的安全性ベンチマークとレッドチームツールは、出現する現実世界のリスクシナリオを特定するのに不十分である。我々はRedCodeAgentを提案する。RedCodeAgentは、多様なコードエージェントの脆弱性を体系的に発見するように設計された、最初の自動リピートエージェントである。
論文参考訳（メタデータ） (2025-10-02T22:59:06Z)
Towards Verified Code Reasoning by LLMs [6.973151264926856]
本稿では,コード推論エージェントの回答を自動的に検証する手法について述べる。本手法は, エージェントの応答の形式的表現を抽出し, その後, 形式的検証とプログラム解析ツールを用いて構成する。
論文参考訳（メタデータ） (2025-09-30T17:17:51Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
AgentMesh: A Cooperative Multi-Agent Generative AI Framework for Software Development Automation [0.0]
ソフトウェア開発タスクの自動化に複数のLCMエージェントを併用したPythonベースのフレームワークを提案する。 AgentMeshでは、Planner、Coder、Debugger、Reviewerといった特殊なエージェントが協力して、ハイレベルな要件を完全に実現されたコードに変換する。
論文参考訳（メタデータ） (2025-07-26T10:10:02Z)
Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [60.04362496037186]
本研究は,コーディングエージェントと開発者インタラクションを制御した最初の研究である。我々は,2つの主要な協調型およびエージェント型符号化アシスタントの評価を行った。結果から,エージェントはコピロトを超える方法で開発者を支援することができることがわかった。
論文参考訳（メタデータ） (2025-07-10T20:12:54Z)
Leveraging Reward Models for Guiding Code Review Comment Generation [13.306560805316103]
コードレビューは、コード品質の評価、潜在的な問題に対するフィードバックの提供、特定された問題に対処するためのコード修正を含む、現代のソフトウェア開発において重要なコンポーネントである。ディープラーニングのテクニックは、人間のレビュアーが行うようなコードにコメントすることで、コードレビューのジェネレーティブな側面に取り組むことができる。本稿では,報酬機構を備えた強化学習を活用することによって,レビューコメント生成を自動化するディープラーニングフレームワークであるCoRALを紹介する。
論文参考訳（メタデータ） (2025-06-04T21:31:38Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
CodeCoR: An LLM-Based Self-Reflective Multi-Agent Framework for Code Generation [10.048098631259876]
コード生成は、自然言語で書かれた要求を自動的に満たすコードを生成することを目的としている。 ChatGPTのような大きな言語モデル(LLM)は、生成されたコードの構文的および意味論的正確性を保証するのに失敗する。我々は,各エージェントとそのコラボレーションの有効性を評価する,自己表現型マルチエージェントフレームワークであるCodeCoRを提案する。
論文参考訳（メタデータ） (2025-01-14T03:21:10Z)
RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。 RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。 RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文参考訳（メタデータ） (2024-11-12T13:30:06Z)
Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文参考訳（メタデータ） (2024-10-16T11:33:57Z)
Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文参考訳（メタデータ） (2024-10-14T17:57:02Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
Sifting through the Chaff: On Utilizing Execution Feedback for Ranking the Generated Code Candidates [46.74037090843497]
大規模言語モデル(LLM)は、自然言語記述に基づいたコードの自動生成によって、開発者がプログラミングにアプローチする方法を変えつつある。本稿では,実行フィードバックを活用するコードランキングの革新的なアプローチである RankEF について述べる。 3つのコード生成ベンチマークの実験では、RanEFが最先端のCodeRankerよりも大幅に優れていることが示されている。
論文参考訳（メタデータ） (2024-08-26T01:48:57Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges [41.038584732889895]
大規模言語モデル(LLM)は自動コード生成において有望であるが、通常は単純なタスクでのみ優れている。私たちの研究は、実世界のリポジトリレベルのコード生成という、より現実的な設定でLLMを評価することに向かっています。我々は,効率的なリポジトリレベルのコード生成に外部ツールを利用する,新しいLLMベースのエージェントフレームワークであるCodeAgentを紹介する。
論文参考訳（メタデータ） (2024-01-14T18:12:03Z)
Using AI/ML to Find and Remediate Enterprise Secrets in Code & Document Sharing Platforms [2.9248916859490173]
1) AIを活用して、コード内のシークレットを正確に検出し、フラグアップし、人気のあるドキュメント共有プラットフォーム上でフラグアップする。検出性能に優れた2つのベースラインAIモデルを導入し、コード中のシークレットを更新するための自動メカニズムを提案する。
論文参考訳（メタデータ） (2024-01-03T14:15:25Z)
AgentCoder: Multi-Agent-based Code Generation with Iterative Testing and Optimisation [11.155351560550853]
本稿では,マルチエージェント・アシスタント・コード生成(AgentCoder)を紹介する。 AgentCoderは,プログラマエージェント,テストデザイナエージェント,テストエグゼクタエージェントという,特殊なエージェントを備えたマルチエージェントフレームワークを備えた,斬新なソリューションだ。 9つのコード生成モデルと12つの拡張アプローチの実験では、既存のコード生成モデルよりもAgentCoderの方が優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2023-12-20T13:22:41Z)
Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文参考訳（メタデータ） (2023-05-08T10:00:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。