論文の概要: Building an Internal Coding Agent at Zup: Lessons and Open Questions
- arxiv url: http://arxiv.org/abs/2604.09805v1
- Date: Fri, 10 Apr 2026 18:28:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.684605
- Title: Building an Internal Coding Agent at Zup: Lessons and Open Questions
- Title(参考訳): Zupにおける内部コーディングエージェントの構築 - 教訓とオープンな質問
- Authors: Gustavo Pinto, Pedro Eduardo de Paula Naves, Ana Paula Camargo, Marselle Silva,
- Abstract要約: 内部のコーディングエージェントは、プロトタイプのパフォーマンスとプロダクションの準備ができている間にギャップに直面します。
目標ツール設計と層状安全ガードレールにより,迅速な工学よりもエージェント信頼性が向上したことを示す。
これらの結果は、モデルを取り巻くエンジニアリング上の決定 -- モデル自体ではなく -- が、実際にコーディングエージェントが真の価値を提供するかどうかを決定することを示唆している。
- 参考スコア(独自算出の注目度): 1.6954927683791832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enterprise teams building internal coding agents face a gap between prototype performance and production readiness. The root cause is that technical model quality alone is insufficient -- tool design, safety enforcement, state management, and human trust calibration are equally decisive, yet underreported in the literature. We present CodeGen, an internal coding agent at Zup, and show that targeted tool design (e.g., string-replacement edits over full-file rewrites) and layered safety guardrails improved agent reliability more than prompt engineering, while progressive human oversight modes drove organic adoption without mandating trust. These findings suggest that the engineering decisions surrounding the model -- not the model itself -- determine whether a coding agent delivers real value in practice.
- Abstract(参考訳): 社内のコーディングエージェントを構築するエンタープライズチームは、プロトタイプのパフォーマンスと運用準備のギャップに直面します。
主な原因は、技術モデルの品質だけでは不十分である - ツール設計、安全執行、状態管理、人的信頼の校正は、同様に決定的であるが、文献では報告されていない。
我々は、Zupの内部コーディングエージェントであるCodeGenを紹介し、ターゲットツール設計(例えば、フルファイルの書き直しよりも文字列置換が編集される)と層状安全ガードレールが、プロンプトエンジニアリングよりもエージェントの信頼性を向上させる一方で、プログレッシブなヒューマン監視モードは、信頼を強制せずに有機的採用を促進することを示した。
これらの結果は、モデルを取り巻くエンジニアリング上の決定 -- モデル自体ではなく -- が、実際にコーディングエージェントが真の価値を提供するかどうかを決定することを示唆している。
関連論文リスト
- An Agentic Evaluation Framework for AI-Generated Scientific Code in PETSc [7.236134946837382]
petscagent-benchはエージェント評価エージェントのパラダイムに基づいて構築されたエージェントフレームワークである。
正確性、パフォーマンス、コード品質、アルゴリズムの適切性、ライブラリ固有の規約の5つの評価カテゴリで14評価パイプラインを編成する。
本フレームワークは,HPC用PETScライブラリを用いて,現実的な問題のベンチマークスイート上で実演する。
論文 参考訳(メタデータ) (2026-03-16T22:46:10Z) - Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。
機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文 参考訳(メタデータ) (2026-02-07T07:42:07Z) - Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization [69.36509281190662]
生産レベルのコンピュータビジョンツールを科学データセットに適応させることは、重要な"ラストマイル"ボトルネックである。
我々は、AIエージェントを使ってこの手動コーディングを自動化し、最適なエージェント設計のオープンな問題に焦点を当てる。
簡単なエージェントフレームワークが、人間-専門家のソリューションよりも優れた適応コードを生成することを実証する。
論文 参考訳(メタデータ) (2025-12-02T18:42:26Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - CodeAgent: Autonomous Communicative Agents for Code Review [12.163258651539236]
コードレビュー自動化のための新しいマルチエージェント大規模言語モデル(LLM)システムであるツールを紹介する。
CodeAgentは、すべてのエージェントのコントリビューションが初期レビュー問題に対処するように、監督エージェントであるQA-Checkerを組み込んでいる。
結果はCodeAgentの有効性を実証し、コードレビュー自動化の新たな最先端に寄与している。
論文 参考訳(メタデータ) (2024-02-03T14:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。