論文の概要: The Kitchen Loop: User-Spec-Driven Development for a Self-Evolving Codebase
- arxiv url: http://arxiv.org/abs/2603.25697v1
- Date: Thu, 26 Mar 2026 17:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.40906
- Title: The Kitchen Loop: User-Spec-Driven Development for a Self-Evolving Codebase
- Title(参考訳): Kitchen Loop: 自己進化型コードベースのためのユーザ仕様駆動開発
- Authors: Yannick Roy,
- Abstract要約: 統合信頼モデル上に構築された自律的自己進化型ソフトウェアのためのフレームワークであるKitchen Loopを紹介します。
285以上のイテレーションで2つのプロダクションシステムにまたがって検証を行い、レグレッションオラクルによって検出されたゼロレグレッションで1,094以上のマージプルリクエストを生成しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code production is now a commodity; the bottleneck is knowing what to build and proving it works. We present the Kitchen Loop, a framework for autonomous, self-evolving software built on a unified trust model: (1) a specification surface enumerating what the product claims to support; (2) 'As a User x 1000', where an LLM agent exercises that surface as a synthetic power user at 1,000x human cadence; (3) Unbeatable Tests, ground-truth verification the code author cannot fake; and (4) Drift Control, continuous quality measurement with automated pause gates. We validate across two production systems over 285+ iterations, producing 1,094+ merged pull requests with zero regressions detected by the regression oracle (methodology in Section 6.1). We observe emergent properties at scale: multi-iteration self-correction chains, autonomous infrastructure healing, and monotonically improving quality gates. The primitives are not new; our contribution is their composition into a production-tested system with the operational discipline that makes long-running autonomous evolution safe.
- Abstract(参考訳): コード生産は今やコモディティであり、ボトルネックは、何を構築し、それを証明すべきかを知ることだ。
統合信頼モデル上に構築された自律的自己進化型ソフトウェアのためのフレームワークである Kitchen Loop について述べる。(1) 製品がサポートしようとするものを列挙する仕様面,(2) ユーザx1000 として LLM エージェントが合成パワーユーザとして1,000倍の時間でその表面を動作させる場合,(3) コード作者が偽造できない不当なテスト,(4) ドリフト制御,自動停止ゲートによる継続的品質測定。
285以上のイテレーションで2つのプロダクションシステムにまたがって検証を行い、回帰オラクルによって検出されたゼロ回帰(セクション6.1の方法論)で1,094以上の統合プルリクエストを生成しました。
マルチイテレーション自己補正チェーン,自律的インフラストラクチャヒーリング,品質ゲートの単調な改善など,創発的特性を大規模に観察する。
当社のコントリビューションは、長期にわたる自律的進化を安全にする運用の規律を備えた、実運用テストシステムへの構成です。
関連論文リスト
- Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - GLM-5: from Vibe Coding to Agentic Engineering [222.46864802629477]
GLM-5は,バイブ符号化のパラダイムをエージェント工学に移行するために設計された次世代基盤モデルである。
GLM-5は、前任者のエージェント、推論、コーディング(ARC)能力に基づいており、長いコンテキストの忠実さを維持しながら、トレーニングと推論のコストを大幅に削減するためにDSAを採用している。
論文 参考訳(メタデータ) (2026-02-17T17:50:56Z) - ArkEval: Benchmarking and Evaluating Automated CodeRepair for ArkTS [12.977178538993806]
HarmonyOSエコシステムは、TypeScriptの静的型付け拡張であるArkTSに大きく依存している。
その重要性は増しているが、自動化されたコード修復のための堅牢なツールが欠如している。
本稿では,ArkTSの自動修復ワークフロー評価とベンチマーク構築のための統合フレームワークであるArkEvalを紹介する。
論文 参考訳(メタデータ) (2026-02-09T16:28:29Z) - You Don't Know Until You Click:Automated GUI Testing for Production-Ready Software Evaluation [24.956175875766952]
RealDevWorldは、大規模言語モデル(LLM)とソフトウェア開発におけるコードエージェントの評価フレームワークである。
主なコンポーネントは、194のオープンエンドソフトウェアエンジニアリングタスクのコレクションであるRealDevBenchと、新しいエージェント・アズ・ア・ジャッジ評価システムであるAppEvalPilotだ。
実証的な結果は、RealDevWorldが効果的で、自動で、そして、人間に沿った評価を提供することを示している。
論文 参考訳(メタデータ) (2025-08-17T07:31:11Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - On Simulation-Guided LLM-based Code Generation for Safe Autonomous Driving Software [0.577182115743694]
オートマチック・ドライビング・システム(Automated Driving System, ADS)は、車両の環境の解釈に責任を負う安全クリティカルなソフトウェアシステムである。
ADSの開発には厳格なプロセスが必要で、車両に配備する前にコードを検証し、検証し、評価し、検証する。
本研究では,自動コード生成と評価のためのプロトタイプを開発し,評価した。
論文 参考訳(メタデータ) (2025-04-02T21:35:11Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。