論文の概要: Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale
- arxiv url: http://arxiv.org/abs/2512.10398v2
- Date: Fri, 12 Dec 2025 16:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 13:50:29.188186
- Title: Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale
- Title(参考訳): Confucius Code Agent: 産業規模のAIソフトウェアエンジニア
- Authors: Zhaodong Wang, Zhenting Qi, Sherman Wong, Nathan Hu, Samuel Lin, Jun Ge, Erwin Gao, Yining Yang, Ben Maurer, Wenlin Chen, David Recordon, Yilun Du, Minlan Yu, Ying Zhang,
- Abstract要約: 現実世界のAIソフトウェアエンジニアリングは、大量のリポジトリを推論し、長いセッションで耐久性のあるメモリを維持し、テスト時に複雑なツールチェーンを堅牢にコーディネートするコーディングエージェントを要求する。
我々は、産業規模で運用可能なオープンソースのAIソフトウェアエンジニアであるConfucius Code Agent(CCA)を紹介する。
- 参考スコア(独自算出の注目度): 41.97197079740127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world AI software engineering demands coding agents that can reason over massive repositories, maintain durable memory across and within long sessions, and robustly coordinate complex toolchains at test time. Existing open-source coding agents provide transparency but frequently fall short when pushed to these industrial-scale workloads, while proprietary coding agents offer strong practical performance but limited extensibility, interpretability, and controllability. We present the Confucius Code Agent (CCA), an open-sourced AI software engineer that can operate at an industrial scale. CCA is built atop the Confucius SDK, an open-sourced agent development platform designed around three complementary perspectives: Agent Experience (AX), User Experience (UX), and Developer Experience (DX). The SDK introduces a unified orchestrator with hierarchical working memory for long-context reasoning, a persistent note-taking system for cross-session continual learning, and a modular extension module for robust tool use. Moreover, a meta-agent automates the synthesis, evaluation, and refinement of agent configurations through a build-test-improve loop, enabling rapid agent development on new tasks, environments, and tool stacks. Instantiated on Confucius SDK with these mechanisms, CCA delivers strong performance on real-world software engineering tasks. On SWE-Bench-Pro, CCA achieves a state-of-the-art Resolve@1 performance of 54.3%, substantially improving over prior coding agents. Together, the Confucius SDK and CCA provide a transparent, extensible, and reproducible foundation for AI agents, bridge gaps between research prototypes and production-grade systems, and support agent development and deployment at industrial scale.
- Abstract(参考訳): 現実世界のAIソフトウェアエンジニアリングは、大量のリポジトリを推論し、長いセッションで耐久性のあるメモリを維持し、テスト時に複雑なツールチェーンを堅牢にコーディネートするコーディングエージェントを要求する。
既存のオープンソースコーディングエージェントは透明性を提供するが、これらの産業規模のワークロードにプッシュされると、しばしば不足する。
我々は、産業規模で運用可能なオープンソースのAIソフトウェアエンジニアであるConfucius Code Agent(CCA)を紹介する。
CCAは、エージェントエクスペリエンス(AX)、ユーザエクスペリエンス(UX)、開発者エクスペリエンス(DX)の3つの相補的な視点に基づいて設計された、オープンソースのエージェント開発プラットフォームであるConfucius SDKの上に構築されている。
SDKには、長期コンテキスト推論のための階層的なワーキングメモリを備えた統一的なオーケストレータ、クロスセッション連続学習のための永続的なメモ取りシステム、堅牢なツール使用のためのモジュール拡張モジュールが導入されている。
さらに、メタエージェントは、ビルド-テスト-インプロブループを通じてエージェント構成の合成、評価、改善を自動化することで、新しいタスク、環境、ツールスタック上でのエージェントの迅速な開発を可能にする。
Confucius SDKにこれらのメカニズムを組み込んだCCAは、現実世界のソフトウェアエンジニアリングタスクに強力なパフォーマンスを提供する。
SWE-Bench-Proでは、CCAは最先端のResolve@1のパフォーマンスを54.3%向上させ、従来のコーディングエージェントよりも大幅に改善した。
Confucius SDKとCCAは共に、AIエージェントの透明で拡張可能で再現可能な基盤、研究プロトタイプとプロダクショングレードシステムの間の橋渡し、産業規模でのエージェントの開発とデプロイメントのサポートを提供する。
関連論文リスト
- OpenSage: Self-programming Agent Generation Engine [56.399761469404496]
自己生成型トポロジとツールセットでエージェントを自動生成する最初のエージェント開発キットであるOpenSageを提案する。
OpenSageは、エージェントが独自のサブエージェントとツールキットを作成し管理するための効果的な機能を提供する。
OpenSageは、人間中心のパラダイムからAI中心のパラダイムへと焦点を移す、次世代のエージェント開発への道を開くことができる、と私たちは信じています。
論文 参考訳(メタデータ) (2026-02-18T21:16:29Z) - A Lightweight Modular Framework for Constructing Autonomous Agents Driven by Large Language Models: Design, Implementation, and Applications in AgentForge [1.932555230783329]
LLM駆動の自律エージェントの構築を民主化するために設計された軽量でオープンソースのPythonフレームワーク。
AgentForgeは、(1)正式に定義された入出力契約できめ細かいタスク分解を可能にする構成可能なスキル抽象化、(2)クラウドベースのAPIとローカル推論エンジンのシームレスな切り替えをサポートする統一されたバックエンドインターフェース、(3)エージェントロジックと実装の詳細を分離する宣言型YAMLベースの構成システムである。
論文 参考訳(メタデータ) (2026-01-19T20:33:26Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents [46.254487394746725]
本稿では,ソフトウェア開発エージェントを実装するツールキットであるOpenHands Software Agent SDKを紹介する。
柔軟性を達成するために、デフォルトケースで数行のコードしか必要としないエージェントを実装するためのシンプルなインターフェースを設計する。
セキュリティと信頼性のために、シームレスなローカル-リモート実行ポータビリティ、REST/WebSocketサービスの統合を提供する。
論文 参考訳(メタデータ) (2025-11-05T18:16:44Z) - Open Agent Specification (Agent Spec): A Unified Representation for AI Agents [10.685555728094338]
我々はAIエージェントとエージェントを定義する宣言型言語Open Agent Specification(Agent Spec)を紹介する。
Agent Specは、コンポーネント、コントロールとデータフローのセマンティクス、スキーマの共通セットを定義し、エージェントを一度定義し、異なるランタイム間で実行できるようにする。
論文 参考訳(メタデータ) (2025-10-05T12:26:42Z) - AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications [95.42093979627703]
AgentScopeは柔軟で効率的なツールベースのエージェント環境インタラクションをサポートする。
エージェントの動作をReActパラダイムに基盤として,エージェントレベルの高度なインフラストラクチャを提供します。
AgentScopeには、開発者フレンドリーなエクスペリエンスのための堅牢なエンジニアリングサポートも含まれている。
論文 参考訳(メタデータ) (2025-08-22T10:35:56Z) - Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training [67.895981259683]
汎用AIエージェントは、次世代人工知能の基礎となるフレームワークとして、ますます認識されている。
現在のエージェントシステムはクローズドソースか、さまざまな有料APIやプロプライエタリなツールに大きく依存している。
我々は,完全オープンソースかつ(最大限に)フリーなマルチモジュールエージェントフレームワークであるCognitive Kernel-Proを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:11:31Z) - AgentMesh: A Cooperative Multi-Agent Generative AI Framework for Software Development Automation [0.0]
ソフトウェア開発タスクの自動化に複数のLCMエージェントを併用したPythonベースのフレームワークを提案する。
AgentMeshでは、Planner、Coder、Debugger、Reviewerといった特殊なエージェントが協力して、ハイレベルな要件を完全に実現されたコードに変換する。
論文 参考訳(メタデータ) (2025-07-26T10:10:02Z) - AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents [25.735754822676277]
言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。
強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。
AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T10:22:36Z) - State and Memory is All You Need for Robust and Reliable AI Agents [29.259008600842517]
大規模言語モデル(LLM)は、自然言語の理解と生成において強力な進歩を実現している。
しかし、複雑な現実世界の科学への応用は、記憶、計画、ツール統合の課題によって制限されている。
本稿では、LLMベースのエージェントが自律的に計画し、推論し、堅牢で信頼性の高いドメイン固有タスク実行を実現することができるモジュール型エージェントフレームワークであるSciBORGを紹介する。
論文 参考訳(メタデータ) (2025-06-30T02:02:35Z) - Unified Software Engineering agent as AI Software Engineer [14.733475669942276]
大規模言語モデル(LLM)技術は、自動コーディングに対する期待を高めた。
本稿では,統一ソフトウェア工学エージェントやUSEagentを開発することによって,この問題を理解することを目的とする。
私たちはUSEagentを、AIと人間の両方を含む将来のソフトウェア開発チームのチームメンバーになる、将来のAIソフトウェアエンジニアの最初のドラフトとして考えています。
論文 参考訳(メタデータ) (2025-06-17T16:19:13Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。