論文の概要: Confucius Code Agent: Scalable Agent Scaffolding for Real-World Codebases
- arxiv url: http://arxiv.org/abs/2512.10398v4
- Date: Wed, 17 Dec 2025 04:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 15:03:26.912223
- Title: Confucius Code Agent: Scalable Agent Scaffolding for Real-World Codebases
- Title(参考訳): Confucius Code Agent: 現実世界のコードベースのためのスケーラブルなエージェントの共有
- Authors: Zhaodong Wang, Zhenting Qi, Sherman Wong, Nathan Hu, Samuel Lin, Jun Ge, Erwin Gao, Wenlin Chen, Yilun Du, Minlan Yu, Ying Zhang,
- Abstract要約: 大規模に運用可能なスケーラブルなソフトウェアエンジニアリングエージェントであるConfucius Code Agent (CCA)を紹介した。
CCAはConfucius SDKの上に構築されている。
さらに,エージェント構成の合成,評価,洗練を自動化するメタエージェントを導入する。
- 参考スコア(独自算出の注目度): 44.366968508477235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world software engineering tasks require coding agents that can operate over massive repositories, sustain long-horizon sessions, and reliably coordinate complex toolchains at test time. Existing research-grade agents offer transparency but struggle when scaled to real-world workloads, while proprietary systems achieve strong practical performance but provide limited extensibility, interpretability, and controllability. We introduce the Confucius Code Agent (CCA), a scalable software engineering agent that can operate at large-scale codebases. CCA is built on top of the Confucius SDK, an agent development platform structured around three complementary perspectives: Agent Experience (AX), User Experience (UX), and Developer Experience (DX). The SDK integrates a unified orchestrator with hierarchical working memory for long-context reasoning, a persistent note-taking system for cross-session continual learning, and a modular extension system for reliable tool use. In addition, we introduce a meta-agent that automates the synthesis, evaluation, and refinement of agent configurations through a build-test-improve loop, enabling rapid adaptation to new tasks, environments, and tool stacks. Instantiated with these mechanisms, CCA demonstrates strong performance on real-world software engineering tasks. On SWE-Bench-Pro, CCA reaches a Resolve@1 of 54.3%, exceeding prior research baselines and comparing favorably to commercial results, under identical repositories, model backend, and tool access. Together, the Confucius SDK and CCA form a general, extensible, and production-grade foundation for building effective and robust coding agents, bridging the gap between research prototypes and practical large-scale deployment.
- Abstract(参考訳): 現実世界のソフトウェアエンジニアリングタスクには、大量のリポジトリ上で動作し、長期セッションを維持し、テスト時に複雑なツールチェーンを確実に調整するコーディングエージェントが必要です。
既存の研究グレードのエージェントは透明性を提供するが、現実のワークロードにスケールした場合に苦労する一方で、プロプライエタリなシステムは強力な実用的なパフォーマンスを実現するが、拡張性、解釈性、制御性は制限される。
我々は,大規模コードベースで動作するスケーラブルなソフトウェアエンジニアリングエージェントであるConfucius Code Agent (CCA)を紹介した。
CCAはConfucius SDK上に構築されており、エージェントエクスペリエンス(AX)、ユーザエクスペリエンス(UX)、開発者エクスペリエンス(DX)の3つの補完的な視点に基づいて構成されているエージェント開発プラットフォームである。
このSDKは、長期コンテキスト推論のための階層的なワーキングメモリと統合されたオーケストレータ、クロスセッション連続学習のための永続的なメモ取りシステム、信頼性の高いツール使用のためのモジュール拡張システムを統合している。
さらに,ビルド-テスト-インプロブループを通じてエージェント構成の合成,評価,改善を自動化するメタエージェントを導入し,新しいタスクや環境,ツールスタックへの迅速な適応を可能にする。
これらのメカニズムを具体化して、CCAは現実世界のソフトウェアエンジニアリングタスクに強いパフォーマンスを示す。
SWE-Bench-Proでは、CCAが54.3%のResolve@1に達した。
Confucius SDKとCCAは共に、効果的で堅牢なコーディングエージェントを構築するための汎用的で拡張性があり、プロダクショングレードの基盤を形成し、研究プロトタイプと実用的な大規模デプロイメントのギャップを埋めている。
関連論文リスト
- OpenSage: Self-programming Agent Generation Engine [56.399761469404496]
自己生成型トポロジとツールセットでエージェントを自動生成する最初のエージェント開発キットであるOpenSageを提案する。
OpenSageは、エージェントが独自のサブエージェントとツールキットを作成し管理するための効果的な機能を提供する。
OpenSageは、人間中心のパラダイムからAI中心のパラダイムへと焦点を移す、次世代のエージェント開発への道を開くことができる、と私たちは信じています。
論文 参考訳(メタデータ) (2026-02-18T21:16:29Z) - A Lightweight Modular Framework for Constructing Autonomous Agents Driven by Large Language Models: Design, Implementation, and Applications in AgentForge [1.932555230783329]
LLM駆動の自律エージェントの構築を民主化するために設計された軽量でオープンソースのPythonフレームワーク。
AgentForgeは、(1)正式に定義された入出力契約できめ細かいタスク分解を可能にする構成可能なスキル抽象化、(2)クラウドベースのAPIとローカル推論エンジンのシームレスな切り替えをサポートする統一されたバックエンドインターフェース、(3)エージェントロジックと実装の詳細を分離する宣言型YAMLベースの構成システムである。
論文 参考訳(メタデータ) (2026-01-19T20:33:26Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents [46.254487394746725]
本稿では,ソフトウェア開発エージェントを実装するツールキットであるOpenHands Software Agent SDKを紹介する。
柔軟性を達成するために、デフォルトケースで数行のコードしか必要としないエージェントを実装するためのシンプルなインターフェースを設計する。
セキュリティと信頼性のために、シームレスなローカル-リモート実行ポータビリティ、REST/WebSocketサービスの統合を提供する。
論文 参考訳(メタデータ) (2025-11-05T18:16:44Z) - Open Agent Specification (Agent Spec): A Unified Representation for AI Agents [10.685555728094338]
我々はAIエージェントとエージェントを定義する宣言型言語Open Agent Specification(Agent Spec)を紹介する。
Agent Specは、コンポーネント、コントロールとデータフローのセマンティクス、スキーマの共通セットを定義し、エージェントを一度定義し、異なるランタイム間で実行できるようにする。
論文 参考訳(メタデータ) (2025-10-05T12:26:42Z) - AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications [95.42093979627703]
AgentScopeは柔軟で効率的なツールベースのエージェント環境インタラクションをサポートする。
エージェントの動作をReActパラダイムに基盤として,エージェントレベルの高度なインフラストラクチャを提供します。
AgentScopeには、開発者フレンドリーなエクスペリエンスのための堅牢なエンジニアリングサポートも含まれている。
論文 参考訳(メタデータ) (2025-08-22T10:35:56Z) - Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training [67.895981259683]
汎用AIエージェントは、次世代人工知能の基礎となるフレームワークとして、ますます認識されている。
現在のエージェントシステムはクローズドソースか、さまざまな有料APIやプロプライエタリなツールに大きく依存している。
我々は,完全オープンソースかつ(最大限に)フリーなマルチモジュールエージェントフレームワークであるCognitive Kernel-Proを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:11:31Z) - AgentMesh: A Cooperative Multi-Agent Generative AI Framework for Software Development Automation [0.0]
ソフトウェア開発タスクの自動化に複数のLCMエージェントを併用したPythonベースのフレームワークを提案する。
AgentMeshでは、Planner、Coder、Debugger、Reviewerといった特殊なエージェントが協力して、ハイレベルな要件を完全に実現されたコードに変換する。
論文 参考訳(メタデータ) (2025-07-26T10:10:02Z) - AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents [25.735754822676277]
言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。
強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。
AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T10:22:36Z) - State and Memory is All You Need for Robust and Reliable AI Agents [29.259008600842517]
大規模言語モデル(LLM)は、自然言語の理解と生成において強力な進歩を実現している。
しかし、複雑な現実世界の科学への応用は、記憶、計画、ツール統合の課題によって制限されている。
本稿では、LLMベースのエージェントが自律的に計画し、推論し、堅牢で信頼性の高いドメイン固有タスク実行を実現することができるモジュール型エージェントフレームワークであるSciBORGを紹介する。
論文 参考訳(メタデータ) (2025-06-30T02:02:35Z) - Unified Software Engineering agent as AI Software Engineer [14.733475669942276]
大規模言語モデル(LLM)技術は、自動コーディングに対する期待を高めた。
本稿では,統一ソフトウェア工学エージェントやUSEagentを開発することによって,この問題を理解することを目的とする。
私たちはUSEagentを、AIと人間の両方を含む将来のソフトウェア開発チームのチームメンバーになる、将来のAIソフトウェアエンジニアの最初のドラフトとして考えています。
論文 参考訳(メタデータ) (2025-06-17T16:19:13Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。