論文の概要: The AI Codebase Maturity Model: From Assisted Coding to Self-Sustaining Systems
- arxiv url: http://arxiv.org/abs/2604.09388v1
- Date: Fri, 10 Apr 2026 15:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.919015
- Title: The AI Codebase Maturity Model: From Assisted Coding to Self-Sustaining Systems
- Title(参考訳): AIコードベース成熟度モデル:コーディング支援から自己維持システムへ
- Authors: Andy Anderson,
- Abstract要約: 本稿では,AIコードベース成熟度モデル(ACMM)について述べる。
CMMIにインスパイアされた各レベルは、そのフィードバックループトポロジーによって、次のレベルが実現する前に存在する必要がある特定のメカニズムによって定義される。
システムは現在、63のCI/CD、32の夜間テストスイート、91%のコードカバレッジで動作し、1日30分24時間以内のバグ修正時間を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI coding tools are widely adopted, but most teams plateau at prompt-and-review without a framework for systematic progression. This paper presents the AI Codebase Maturity Model (ACMM), a 5-level framework describing how codebases evolve from basic AI-assisted coding to self-sustaining systems. Inspired by CMMI, each level is defined by its feedback loop topology the specific mechanisms that must exist before the next level becomes possible. I validate the model through a 4-month experience report maintaining KubeStellar Console, a CNCF Kubernetes dashboard built from scratch with Claude Code (Opus) and GitHub Copilot. The system currently operates with 63 CI/CD workflows, 32 nightly test suites, 91% code coverage, and achieves bug-to-fix times under 30 minutes 24 hours a day. The central finding: the intelligence of an AI-driven development system resides not in the AI model itself, but in the infrastructure of instructions, tests, metrics, and feedback loops that surround it. You cannot skip levels, and at each level, the thing that unlocks the next one is another feedback mechanism. Testing the volume of test cases, the coverage thresholds, and the reliability of test execution proved to be the single most important investment in the entire journey.
- Abstract(参考訳): AIコーディングツールは広く採用されているが、ほとんどのチームは、体系的な進歩のフレームワークなしで、迅速なレビューを行う。
本稿では,基本的AI支援コーディングから自己維持システムへのコードベースの進化を記述した5レベルフレームワークであるAI Codebase Maturity Model(ACMM)を提案する。
CMMIにインスパイアされた各レベルは、そのフィードバックループトポロジーによって、次のレベルが実現する前に存在する必要がある特定のメカニズムによって定義される。
KubeStellar Consoleは、Claude Code(Opus)とGitHub Copilotでスクラッチから構築されたCNCF Kubernetesダッシュボードです。
現在、63のCI/CDワークフロー、32の夜間テストスイート、91%のコードカバレッジで運用されており、1日30分24時間以内のバグ修正時間を実現している。
中心的な発見:AI駆動開発システムの知性は、AIモデル自体ではなく、それを取り巻くインストラクション、テスト、メトリクス、フィードバックループのインフラストラクチャに存在する。
レベルをスキップすることはできず、各レベルにおいて次のレベルをアンロックするものが別のフィードバックメカニズムです。
テストケースのボリューム、カバレッジしきい値、そしてテスト実行の信頼性をテストすることは、旅全体において唯一最も重要な投資でした。
関連論文リスト
- Deep Researcher Agent: An Autonomous Framework for 24/7 Deep Learning Experimentation with Zero-Cost Monitoring [2.4112990554464235]
textbfDeep Researcher Agentは,大規模言語モデル(LLM)エージェントが時計周辺で自律的にディープラーニング実験を行うことを可能にする,オープンソースのフレームワークである。
論文作成やコード生成に重点を置く既存のAI研究アシスタントとは異なり、私たちのシステムは仮説形成、コード実装、トレーニング実行、結果分析、反復的洗練という、完全な実験ライフサイクルに対処しています。
論文 参考訳(メタデータ) (2026-04-07T13:16:31Z) - Needle in the Repo: A Benchmark for Maintainability in AI-Generated Repository Edits [3.9532936038777144]
Needle in the Repo (NITR) は、リポジトリの動作的に正しい編集が維持可能な構造を保存するかどうかを評価するためのフレームワークである。
NITRは、ソフトウェアエンジニアリングの知恵を、小さな、現実的なマルチファイルに埋め込まれた制御されたプローブに蒸留する。
GPT、Claude、Gemini、Qwenの各ファミリーの23のコーディング構成を、直接推論とエージェントベースの設定の両方で評価する。
論文 参考訳(メタデータ) (2026-03-29T15:56:05Z) - AICD Bench: A Challenging Benchmark for AI-Generated Code Detection [91.21422299346199]
AICD Benchは、AI生成コード検出の最も包括的なベンチマークである。
これは$emph2Mサンプル$、$emph77モデル$、$emph11ファミリー$、$emph9プログラミング言語$で、最近の推論モデルを含む。
論文 参考訳(メタデータ) (2026-02-02T13:24:14Z) - SysMoBench: Evaluating AI on Formally Modeling Complex Real-World Systems [12.181911851729614]
我々は、AIが大規模で複雑なシステムを正式にモデル化する能力を評価するベンチマークであるSysMoBenchを紹介する。
私たちは、今日の重要なコンピューティングインフラストラクチャのキーストーンである、並列および分散システムに重点を置いています。
論文 参考訳(メタデータ) (2025-09-27T05:24:54Z) - From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking [48.90371827091671]
AutoExperimentは、AIエージェントの機械学習実験の実装と実行能力を評価するベンチマークである。
我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。
本研究は、長期コード生成、文脈検索、自律的な実験実行における重要な課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-24T15:39:20Z) - Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents [32.42616663576657]
本稿では,自己改善型AIであるDarwin G"odel Machine(DGM)を紹介する。
ダーウィンの進化とオープンエンドネスの研究に触発されたDGMは、生成されたコーディングエージェントのアーカイブを維持している。
エージェントをサンプリングし、ファンデーションモデルを使用して、サンプルされたエージェントの新しい、興味深いバージョンを作成することで、アーカイブを成長させる。
論文 参考訳(メタデータ) (2025-05-29T00:26:15Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。