論文の概要: DeepCode: Open Agentic Coding
- arxiv url: http://arxiv.org/abs/2512.07921v1
- Date: Mon, 08 Dec 2025 16:07:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.682993
- Title: DeepCode: Open Agentic Coding
- Title(参考訳): DeepCode: オープンエージェントコーディング
- Authors: Zongwei Li, Zhonghang Li, Zirui Guo, Xubin Ren, Chao Huang,
- Abstract要約: DeepCodeは、ドキュメントからコードへの合成のための完全に自律的なフレームワークである。
有限のコンテキスト予算の下でタスク関連信号を最大化する4つの情報操作を編成する。
PaperBenchベンチマークの大規模な評価は、DeepCodeが最先端のパフォーマンスを達成したことを示している。
- 参考スコア(独自算出の注目度): 11.7906174865581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have given rise to powerful coding agents, making it possible for code assistants to evolve into code engineers. However, existing methods still face significant challenges in achieving high-fidelity document-to-codebase synthesis--such as scientific papers to code--primarily due to a fundamental conflict between information overload and the context bottlenecks of LLMs. In this work, we introduce DeepCode, a fully autonomous framework that fundamentally addresses this challenge through principled information-flow management. By treating repository synthesis as a channel optimization problem, DeepCode seamlessly orchestrates four information operations to maximize task-relevant signals under finite context budgets: source compression via blueprint distillation, structured indexing using stateful code memory, conditional knowledge injection via retrieval-augmented generation, and closed-loop error correction. Extensive evaluations on the PaperBench benchmark demonstrate that DeepCode achieves state-of-the-art performance, decisively outperforming leading commercial agents such as Cursor and Claude Code, and crucially, surpassing PhD-level human experts from top institutes on key reproduction metrics. By systematically transforming paper specifications into production-grade implementations comparable to human expert quality, this work establishes new foundations for autonomous scientific reproduction that can accelerate research evaluation and discovery.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、強力なコーディングエージェントの台頭をもたらし、コードアシスタントがコードエンジニアに進化することを可能にする。
しかし、既存の手法は、情報過負荷とLLMのコンテキストボトルネックの根本的な相違により、高忠実な文書からコードへの合成を実現する上で大きな課題に直面している。
この作業では、原則化された情報フロー管理を通じて、この課題に根本的に対処する、完全に自律的なフレームワークであるDeepCodeを紹介します。
リポジトリ合成をチャネル最適化問題として扱うことで、DeepCodeは、ブループリント蒸留によるソース圧縮、ステートフルコードメモリを用いた構造化インデックス化、検索強化生成による条件付き知識注入、クローズドループ誤り訂正の4つの情報操作をシームレスにオーケストレーションし、タスク関連信号を最大化する。
PaperBenchベンチマークの大規模な評価は、DeepCodeが最先端のパフォーマンスを達成し、CursorやClaude Codeなどの主要な商用エージェントを決定的に上回り、重要な再現指標に関するトップ機関のPhDレベルの人間専門家を追い越していることを示している。
論文仕様を人間の専門的品質に匹敵する生産レベルの実装に体系的に変換することにより、研究評価と発見を加速できる自律的な科学的再生のための新たな基盤を確立する。
関連論文リスト
- High-quality data augmentation for code comment classification [0.48429188360918735]
コメントは自然言語であるため、マシンベースのコード理解の課題を提示している。
このタスクの既存のデータセットはサイズ制限とクラス不均衡に悩まされている。
我々は、NLBSE'26チャレンジデータセットを強化するために、高品質なデータ生成に基づく新しい合成オーバーサンプリングと拡張技術を導入する。
論文 参考訳(メタデータ) (2026-01-27T09:14:56Z) - From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。
コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。
一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文 参考訳(メタデータ) (2025-11-23T17:09:34Z) - Executable Knowledge Graphs for Replicating AI Research [65.41207324831583]
Executable Knowledge Graphs (xKG) は、科学文献から抽出された技術的洞察、コードスニペット、ドメイン固有の知識を自動的に統合するモジュラーでプラグイン可能な知識基盤である。
コードはhttps://github.com/zjunlp/xKGでリリースされる。
論文 参考訳(メタデータ) (2025-10-20T17:53:23Z) - CodeEvo: Interaction-Driven Synthesis of Code-centric Data through Hybrid and Iterative Feedback [21.627909324788597]
大規模言語モデルの訓練には高品質な命令コードペアの獲得が不可欠である。
2つのLLMエージェント間の反復的な相互作用を通じてコードデータを合成するフレームワークであるCodeEvoを提案する。
論文 参考訳(メタデータ) (2025-07-25T16:12:51Z) - Towards A Generalist Code Embedding Model Based On Massive Data Synthesis [35.04242699869519]
汎用コード検索のための最先端の埋め込みモデルである textbfCodeR (underlineCode underlineRetrieval) を導入する。
CodeRの優れたパフォーマンスは、DRU原則に基づいて構築された大規模な合成データセットであるCodeR-Pile上に構築されている。
論文 参考訳(メタデータ) (2025-05-19T04:37:53Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [70.04746094652653]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。
PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。
次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文 参考訳(メタデータ) (2025-04-24T01:57:01Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - A Review of Repository Level Prompting for LLMs [0.0]
大規模言語モデル(LLM)は、HumanEvalベンチマークで94.6%の解決率を達成するなど、顕著な成功を収めている。
GitHub CopilotやTab Nineといったリポジトリレベルのインラインコード補完ツールの商用化が進んでいる。
本稿では,個々のコーディング問題からリポジトリスケールソリューションへの移行について述べる。
論文 参考訳(メタデータ) (2023-12-15T00:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。