論文の概要: Theory of Code Space: Do Code Agents Understand Software Architecture?
- arxiv url: http://arxiv.org/abs/2603.00601v2
- Date: Tue, 03 Mar 2026 18:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 14:54:12.53439
- Title: Theory of Code Space: Do Code Agents Understand Software Architecture?
- Title(参考訳): コード空間の理論: コードエージェントはソフトウェアアーキテクチャを理解するか?
- Authors: Grigory Sapunov,
- Abstract要約: Theory of Code Space (ToCS) は、コヒーレントなアーキテクチャの信念を構築し、維持し、更新する能力を評価するベンチマークである。
ToCSはモジュール依存の上に構造化された信念状態を構築するためにエージェントを必要とする。
事前アーキテクチャ制約発見(Preliminary Architectural Constraint Discovery)は、コード固有の評価である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AI code agents excel at isolated tasks yet struggle with complex, multi-file software engineering requiring understanding of how dozens of modules relate. We hypothesize these failures stem from inability to construct, maintain, and update coherent architectural beliefs during codebase exploration. We introduce Theory of Code Space (ToCS), a benchmark that evaluates this capability by placing agents in procedurally generated codebases under partial observability, requiring them to build structured belief states over module dependencies, cross-cutting invariants, and design intent. The framework features: (1) a procedural codebase generator producing medium-complexity Python projects with four typed edge categories reflecting different discovery methods -- from syntactic imports to config-driven dynamic wiring -- with planted architectural constraints and verified ground truth; (2) a partial observability harness where agents explore under a budget; and (3) periodic belief probing via structured JSON, producing a time-series of architectural understanding. We decompose the Active-Passive Gap from spatial reasoning benchmarks into selection and decision components, and introduce Architectural Constraint Discovery as a code-specific evaluation dimension. Preliminary experiments with four rule-based baselines and five frontier LLM agents from three providers validate discriminative power: methods span a wide performance range (F1 from 0.129 to 0.646), LLM agents discover semantic edge types invisible to all baselines, yet weaker models score below simple heuristics -- revealing that belief externalization, faithfully serializing internal understanding into structured JSON, is itself a non-trivial capability and a first-order confounder in belief-probing benchmarks. Open-source toolkit: https://github.com/che-shr-cat/tocs
- Abstract(参考訳): AIコードエージェントは、分離されたタスクに精通するが、何十ものモジュールが関連しているかを理解する必要がある複雑なマルチファイルソフトウェアエンジニアリングに苦労する。
これらの失敗は、コードベースの探索中に一貫性のあるアーキテクチャの信念を構築し、維持し、更新できないことに起因する、と我々は仮説を立てています。
エージェントを部分的に可観測性の下で手続き的に生成したコードベースに配置し,モジュール依存性や横断的不変量,設計意図に対して構造化された信念状態を構築する必要がある。
フレームワークには,(1)構文インポートから構成駆動の動的配線に至るまで,さまざまな発見手法を反映した4つのタイプ付きエッジカテゴリを持つ,中複雑なPythonプロジェクトを生成するプロシージャコードベースジェネレータ,(2)エージェントが予算の下で探索する部分的可観測性ハーネス,(3)構造化JSONを介して周期的信念を探索し,アーキテクチャ理解の時系列を生成する,といった特徴がある。
空間的推論のベンチマークから選択と決定の要素に分解し,コード固有の評価次元としてアーキテクチャ制約発見を導入する。
3つのプロバイダによる4つのルールベースのベースラインと5つのフロンティアLDMエージェントによる予備的な実験は、識別力を検証する。 メソッドは幅広いパフォーマンス範囲(F1から0.129から0.646)にまたがる。
オープンソースツールキット:https://github.com/che-shr-cat/tocs
関連論文リスト
- Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。
複数の多様な実装設計を生成することで、線形パッチから切り離される。
NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文 参考訳(メタデータ) (2026-03-02T12:50:40Z) - Multi-CoLoR: Context-Aware Localization and Reasoning across Multi-Language Codebases [1.4216413758677147]
マルチ言語間におけるコンテキスト認識のローカライゼーションと推論のためのフレームワークであるMulti-CoLoRを提案する。
複雑なソフトウェアエコシステムを横断するために、組織的知識検索とグラフベースの推論を統合する。
論文 参考訳(メタデータ) (2026-02-23T00:54:59Z) - Do Not Treat Code as Natural Language: Implications for Repository-Level Code Generation and Beyond [13.550121154853715]
自然言語ではなく構造化コードとしてコードを扱う,リポジトリレベルのコード生成フレームワークであるHydraを紹介します。
我々はHydraがオープンソースおよびクローズドソースのCodeLLMにまたがって最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2026-02-12T07:44:00Z) - DDL2PropBank Agent: Benchmarking Multi-Agent Frameworks' Developer Experience Through a Novel Relational Schema Mapping Task [9.51787137194505]
DDL2PropBankは、関係データベーススキーマをPropBankロールセットにマッピングする新しいベンチマークタスクである。
10のフレームワークで同一のエージェントロジックを実装し、(i)静的解析によるコードの複雑さと(ii)AIアシスト性という2つの次元に沿って評価する。
Pydantic AIとAgnoは最小限の実装オーバーヘッドを必要とする。
論文 参考訳(メタデータ) (2026-02-03T01:10:59Z) - ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development [49.63491095660809]
ProjDevBenchはエンドツーエンドのベンチマークで、コーディングエージェントにプロジェクト要件を提供し、その結果のリポジトリを評価する。
概念指向タスクと実世界のアプリケーションシナリオの両方をカバーし、8つのカテゴリにまたがる20のプログラミング問題をキュレートします。
エージェントは基本的な機能を扱うが、複雑なシステム設計、時間最適化、リソース管理に苦労する。
論文 参考訳(メタデータ) (2026-02-02T05:17:23Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - LLM-Driven Collaborative Model for Untangling Commits via Explicit and Implicit Dependency Reasoning [15.20947984949809]
コミット回避のための新しいコラボレーティブコンサルテーションフレームワークであるColaUntangleを提案する。
ColaUntangleは、LLM(Large Language Model)駆動エージェントをマルチエージェントアーキテクチャに統合する。
広く使われている2つのデータセット(1,612 C#と14k Java tangledコミット)上でColaUntangleを評価する。
論文 参考訳(メタデータ) (2025-07-22T09:42:13Z) - Can LLMs Reason Structurally? An Evaluation via the Lens of Data Structures [21.390740746718947]
DSR-Benchは,大規模言語モデルの構造的推論を体系的に評価する最初のベンチマークである。
ベンチマークは、20のデータ構造、35の操作、および、最小限の汚染で合成生成された4,140の問題インスタンスにまたがる。
論文 参考訳(メタデータ) (2025-05-29T23:24:53Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [66.43738008739555]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases [13.733229886643041]
大きな言語モデル(LLM)は、HumanEvalやMBPPのようなスタンドアロンのコードタスクに優れていますが、コードリポジトリ全体の処理に苦労しています。
類似性に基づく検索は複雑なタスクではリコールが低いことが多いが、手動ツールやAPIは通常タスク固有であり、専門家の知識を必要とする。
我々は,LLMエージェントをコードリポジトリから抽出したグラフデータベースインターフェースと統合するシステムであるCodexGraphを紹介する。
論文 参考訳(メタデータ) (2024-08-07T17:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。