論文の概要: Context-Augmented Code Generation: How Product Context Improves AI Coding Agent Decision Compliance by 49%
- arxiv url: http://arxiv.org/abs/2605.08112v1
- Date: Mon, 27 Apr 2026 20:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.706365
- Title: Context-Augmented Code Generation: How Product Context Improves AI Coding Agent Decision Compliance by 49%
- Title(参考訳): コンテキスト拡張コード生成: プロダクトコンテキストがAIコーディングエージェントの意思決定コンプライアンスを49%改善する
- Authors: Drew Dillon, Kasyap Varanasi,
- Abstract要約: 我々は、AIコーディングエージェントが確立した製品、設計、エンジニアリング決定に従う速度を測定するベンチマークを導入する。
ベースライン構成と製品コンテキスト検索システムであるBrefを付加した拡張構成を比較した。
同じプロンプトと同じレポジトリで、拡張構成は95%の意思決定コンプライアンスを達成するが、ベースラインでは46%、49パーセントの改善がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI coding agents powered by large language models can read codebases and produce functional code, but they routinely violate team-specific product decisions that are invisible in the source code alone. We introduce a controlled benchmark measuring decision compliance, the rate at which an AI coding agent follows established product, design, and engineering decisions, across 8 realistic software engineering tasks containing 41 weighted decision points. We compare a baseline configuration (Claude Code with codebase access only) against an augmented configuration that adds Brief, a product-context retrieval system providing spec generation, mid-build consultation, and retrieval of recorded decisions, persona pain points, customer signals, and competitive intelligence. On identical prompts and the same repository, the augmented configuration achieves 95% decision compliance versus 46% for the baseline, a 49 percentage point improvement. Per-decision analysis reveals that the baseline achieves 100% compliance on decisions visible in the codebase and 0-33% on decisions requiring product context, suggesting that product-context retrieval is a key driver of the improvement. We release the benchmark repository, all 16 pull requests, and scoring harness for independent reproduction.
- Abstract(参考訳): 大規模な言語モデルを利用したAIコーディングエージェントはコードベースを読み、機能的なコードを生成することができるが、ソースコードだけでは見えない、チーム固有の製品決定に定期的に違反する。
41の重み付けされた意思決定ポイントを含む8つの現実的なソフトウェアエンジニアリングタスクに対して、AIコーディングエージェントが確立された製品、設計、およびエンジニアリング決定に従う速度を計測する制御されたベンチマークを導入する。
ベースライン構成(Claude Codeとコードベースアクセスのみ)を、仕様生成、中間コンテクストのコンサルテーション、記録された決定、ペルソナの痛点、顧客信号、競争インテリジェンスなどを提供する製品コンテキスト検索システムであるBrefに追加する拡張構成と比較する。
同じプロンプトと同じレポジトリで、拡張構成は95%の意思決定コンプライアンスを達成するが、ベースラインでは46%、49パーセントの改善がある。
意思決定毎の分析では、コードベースで見える決定に対する基準が100%コンプライアンスを達成し、製品コンテキストを必要とする決定に対して0-33%を達成していることが示され、製品コンテキストの検索が改善の鍵となることが示唆された。
ベンチマークレポジトリと16のプルリクエストをすべてリリースし、独立した再生のためのハーネスを評価します。
関連論文リスト
- ProdCodeBench: A Production-Derived Benchmark for Evaluating AI Coding Agents [10.578603956693696]
本稿では,ProdCodeBenchを用いて実運用用ベンチマークの計算手法を提案する。
それぞれのキュレートされたサンプルは、7つのプログラミング言語にまたがる冗長なプロンプト、コミットされたコード変更、フェイル・ツー・パステストで構成されている。
4つの基礎モデルの体系的な分析は、53.2%から72.2%の範囲で解決する。
論文 参考訳(メタデータ) (2026-04-02T01:52:55Z) - SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks [55.76734816061826]
我々は20の問題と93のチェックポイントからなる言語に依存しないベンチマークであるSlopCodeBenchを紹介する。
我々は、冗長性、重複コードの割合、構造的侵食という2つの軌道レベルの品質信号を追跡する。
11モデルにまたがるエンドツーエンドの問題を解決するエージェントは存在しない。
論文 参考訳(メタデータ) (2026-03-25T19:26:44Z) - Code Review as Decision-Making -- Building a Cognitive Model from the Questions Asked During Code Review [2.8299846354183953]
コードレビューの認知モデルを構築し、翻訳された資料の主題的、統計的、時間的、シーケンシャルな分析を通じてボトムアップする。
まず、コンテキストと合理性を確立するための配向フェーズ、次に、レビューの残りの部分を理解し、評価し、計画するための分析フェーズです。
論文 参考訳(メタデータ) (2025-07-13T14:04:16Z) - Wired for Reuse: Automating Context-Aware Code Adaptation in IDEs via LLM-Based Agent [7.631972490231939]
本稿では,RAG(Retrieval-Augmented Generation)インフィルタスクとしてフレーム化されたコード配線のためのエージェントであるWIRLを紹介する。
WIRLは、実世界のコード適応シナリオからなる、注意深くキュレートされた高品質なデータセットで評価する。
論文 参考訳(メタデータ) (2025-07-02T03:00:23Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Prompt-based Code Completion via Multi-Retrieval Augmented Generation [15.233727939816388]
ProCCは、プロンプトエンジニアリングとコンテキスト多武装バンディットアルゴリズムを活用したコード補完フレームワークである。
ProCCは、収集したオープンソースベンチマークスイートにおいて、最先端のコード補完テクニックを8.6%上回ります。
ProCCはまた, プラグ・アンド・プレイ方式で微調整技術を増強し, 実験した微調整モデルよりも5.6%改善した。
論文 参考訳(メタデータ) (2024-05-13T07:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。