論文の概要: AgentPack: A Dataset of Code Changes, Co-Authored by Agents and Humans
- arxiv url: http://arxiv.org/abs/2509.21891v1
- Date: Fri, 26 Sep 2025 05:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.200446
- Title: AgentPack: A Dataset of Code Changes, Co-Authored by Agents and Humans
- Title(参考訳): AgentPack: エージェントと人間が共同で認証するコード変更のデータセット
- Authors: Yangtian Zi, Zixuan Wu, Aleksander Boruch-Gruszecki, Jonathan Bell, Arjun Guha,
- Abstract要約: コード編集のための微調整された大きな言語モデルは、一般的にコミットのマイニングやプルリクエストに依存しています。
我々は、Claude Code、OpenAI Codex、Cursor Agentが共著した1.3Mコード編集コーパスであるAgentPackを紹介する。
AgentPackで微調整されたモデルは、以前の人間のみのコミットコーパスで訓練されたモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 46.56091965723774
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fine-tuning large language models for code editing has typically relied on mining commits and pull requests. The working hypothesis has been that commit messages describe human intent in natural language, and patches to code describe the changes that implement that intent. However, much of the previously collected data is noisy: commit messages are terse, human-written commits commingle several unrelated edits, and many commits come from simple, rule-based bots. The recent adoption of software engineering agents changes this landscape. Code changes co-authored by humans and agents tend to be more narrowly scoped and focused on clearer goals. Their commit messages, generated by LLMs, articulate intent and rationale in much greater detail. Moreover, when these changes land in public repositories, they are implicitly filtered by humans: maintainers discard low-quality commits to their projects. We present AgentPack, a corpus of 1.3M code edits co-authored by Claude Code, OpenAI Codex, and Cursor Agent across public GitHub projects up to mid-August 2025. We describe the identification and curation pipeline, quantify adoption trends of these agents, and analyze the structural properties of the edits. Finally, we show that models fine-tuned on AgentPack can outperform models trained on prior human-only commit corpora, highlighting the potential of using public data from software engineering agents to train future code-editing models.
- Abstract(参考訳): コード編集のための微調整された大きな言語モデルは、一般的にコミットのマイニングやプルリクエストに依存しています。
動作する仮説は、コミットメッセージは自然言語における人間の意図を記述し、コードへのパッチは、その意図を実装する変更を記述している、というものだ。
コミットメッセージは簡潔で、人間によるコミットはいくつかの無関係な編集に始まり、多くのコミットは単純なルールベースのボットから来ている。
ソフトウェアエンジニアリングエージェントの採用により、この状況が変わりました。
人間とエージェントが共著したコードの変更は、スコープが狭くなり、より明確な目標に集中する傾向がある。
LLMによって生成されたコミットメッセージは、より詳細な意図と合理性を明確に表現する。
さらに、これらの変更がパブリックリポジトリに着陸すると、人間によって暗黙的にフィルタリングされる:メンテナは、プロジェクトに対する低品質のコミットを捨てる。
我々は、Claude Code、OpenAI Codex、Cursor Agentが共著した1.3Mコード編集コーパスであるAgentPackを、2025年8月中旬までのパブリックGitHubプロジェクト全体で紹介する。
識別とキュレーションのパイプラインを記述し、これらのエージェントの採用動向を定量化し、編集の構造的特性を解析する。
最後に、AgentPackで微調整されたモデルは、人間のみのコミットコーパスでトレーニングされたモデルよりも優れており、将来のコード編集モデルをトレーニングするために、ソフトウェアエンジニアリングエージェントから公開データを使用することの可能性を強調します。
関連論文リスト
- Brevity is the Soul of Wit: Condensing Code Changes to Improve Commit Message Generation [21.625755841132733]
生成前にコード変更を凝縮する方法を提案する。
最初に、ChangeScribeというツールの助けを借りて提案したテンプレートを使って、コードの変更をコンデンスします。
我々の手法はBLEU-Norm, METEOR, ROUGE-Lの6つのベースラインより優れている。
論文 参考訳(メタデータ) (2025-09-19T04:04:28Z) - Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。
一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。
ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。
一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文 参考訳(メタデータ) (2024-10-16T11:33:57Z) - InstructCoder: Instruction Tuning Large Language Models for Code Editing [26.160498475809266]
ユーザインストラクションに基づいたコード編集にLLM(Large Language Models)を用いる方法について検討する。
InstructCoderは、汎用コード編集にLLMを適用するために設計された最初の命令チューニングデータセットである。
InstructCoderで微調整されたオープンソースのLLMは、コード編集の精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-31T10:15:35Z) - Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。
Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文 参考訳(メタデータ) (2023-09-14T17:18:25Z) - Delving into Commit-Issue Correlation to Enhance Commit Message
Generation Models [13.605167159285374]
コミットメッセージ生成は、自動化されたソフトウェアエンジニアリングにおいて難しいタスクである。
ツールとは,コミットとイシューの相関関係をモデルのトレーニングフェーズに導入する,新たなパラダイムだ。
その結果,元モデルと比較して,ツール強化モデルの性能は大幅に向上した。
論文 参考訳(メタデータ) (2023-07-31T20:35:00Z) - Coeditor: Leveraging Contextual Changes for Multi-round Code Auto-editing [57.776971051512234]
本研究では,複数ラウンドのコードの自動編集設定について検討し,その内部の最近の変更に基づいて,コード領域への編集を予測することを目的とした。
我々のモデルであるCoeditorは、コード編集タスクに特化して設計された微調整言語モデルである。
単純化されたシングルラウンドのシングル編集タスクでは、Coeditor は GPT-3.5 と SOTA のオープンソースコード補完モデルを大幅に上回っている。
論文 参考訳(メタデータ) (2023-05-29T19:57:36Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。