論文の概要: Theory of Code Space: Do Code Agents Understand Software Architecture?
- arxiv url: http://arxiv.org/abs/2603.00601v3
- Date: Thu, 05 Mar 2026 22:17:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:43.790762
- Title: Theory of Code Space: Do Code Agents Understand Software Architecture?
- Title(参考訳): コード空間の理論: コードエージェントはソフトウェアアーキテクチャを理解するか?
- Authors: Grigory Sapunov,
- Abstract要約: コードエージェントは、分離されたタスクで優れているが、アーキテクチャの理解を必要とするマルチファイルソフトウェアエンジニアリングと苦労する。
エージェントがAI探索中に一貫性のあるアーキテクチャの信念を構築し、維持し、更新できるかどうかを評価するベンチマークである、コード空間の理論(ToCS)を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AI code agents excel at isolated tasks yet struggle with multi-file software engineering requiring architectural understanding. We introduce Theory of Code Space (ToCS), a benchmark that evaluates whether agents can construct, maintain, and update coherent architectural beliefs during codebase exploration. Agents explore procedurally generated codebases under partial observability -- opening files under a budget -- and periodically externalize their belief state as structured JSON, producing a time-series of architectural understanding. Three findings emerge from experiments with four baselines and six frontier LLMs. First, the Active-Passive Gap is model-dependent: one model builds better maps through active exploration than from seeing all files at once, while another shows the opposite -- revealing that active exploration is itself a non-trivial capability absent from some models. Second, retaining structured belief maps in context acts as self-scaffolding for some models but not others, showing that the mechanism is model-dependent. Third, belief state maintenance varies dramatically: a smaller model maintains perfectly stable beliefs across probes while its larger sibling suffers catastrophic belief collapse -- forgetting previously-discovered components between probes. We release ToCS as open-source software. Code: https://github.com/che-shr-cat/tocs
- Abstract(参考訳): AIコードエージェントは、分離されたタスクで優れたが、アーキテクチャの理解を必要とするマルチファイルソフトウェアエンジニアリングに苦労する。
コード空間の理論 (ToCS) は, エージェントがコードベース探索中に一貫性のあるアーキテクチャ的信念を構築し, 維持し, 更新できるかどうかを評価するベンチマークである。
エージェントは、部分的に可観測性(予算の下でファイルを開く)の下で手続き的に生成されたコードベースを探索し、定期的にその信念状態を構造化JSONとして外部化し、アーキテクチャ理解の時系列を生成する。
4つのベースラインと6つのフロンティアLSMによる実験から3つの発見が得られた。
まず、Active-Passive Gapはモデルに依存している。あるモデルは、すべてのファイルを一度に見るよりも、アクティブな探索を通してより良いマップを構築する。
第二に、文脈における構造的信念写像の保持は、一部のモデルでは自己スケーリングとして機能するが、他のモデルでは機能せず、そのメカニズムがモデルに依存していることを示す。
第3に、信念状態の維持は劇的に変化し、より小さなモデルでは、プローブ間で完全に安定した信念を維持し、大きな兄弟は破滅的な信念の崩壊に苦しむ。
オープンソースソフトウェアとしてTOCSをリリースします。
コード:https://github.com/che-shr-cat/tocs
関連論文リスト
- Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。
複数の多様な実装設計を生成することで、線形パッチから切り離される。
NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文 参考訳(メタデータ) (2026-03-02T12:50:40Z) - Multi-CoLoR: Context-Aware Localization and Reasoning across Multi-Language Codebases [1.4216413758677147]
マルチ言語間におけるコンテキスト認識のローカライゼーションと推論のためのフレームワークであるMulti-CoLoRを提案する。
複雑なソフトウェアエコシステムを横断するために、組織的知識検索とグラフベースの推論を統合する。
論文 参考訳(メタデータ) (2026-02-23T00:54:59Z) - Do Not Treat Code as Natural Language: Implications for Repository-Level Code Generation and Beyond [13.550121154853715]
自然言語ではなく構造化コードとしてコードを扱う,リポジトリレベルのコード生成フレームワークであるHydraを紹介します。
我々はHydraがオープンソースおよびクローズドソースのCodeLLMにまたがって最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2026-02-12T07:44:00Z) - DDL2PropBank Agent: Benchmarking Multi-Agent Frameworks' Developer Experience Through a Novel Relational Schema Mapping Task [9.51787137194505]
DDL2PropBankは、関係データベーススキーマをPropBankロールセットにマッピングする新しいベンチマークタスクである。
10のフレームワークで同一のエージェントロジックを実装し、(i)静的解析によるコードの複雑さと(ii)AIアシスト性という2つの次元に沿って評価する。
Pydantic AIとAgnoは最小限の実装オーバーヘッドを必要とする。
論文 参考訳(メタデータ) (2026-02-03T01:10:59Z) - ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development [49.63491095660809]
ProjDevBenchはエンドツーエンドのベンチマークで、コーディングエージェントにプロジェクト要件を提供し、その結果のリポジトリを評価する。
概念指向タスクと実世界のアプリケーションシナリオの両方をカバーし、8つのカテゴリにまたがる20のプログラミング問題をキュレートします。
エージェントは基本的な機能を扱うが、複雑なシステム設計、時間最適化、リソース管理に苦労する。
論文 参考訳(メタデータ) (2026-02-02T05:17:23Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - LLM-Driven Collaborative Model for Untangling Commits via Explicit and Implicit Dependency Reasoning [15.20947984949809]
コミット回避のための新しいコラボレーティブコンサルテーションフレームワークであるColaUntangleを提案する。
ColaUntangleは、LLM(Large Language Model)駆動エージェントをマルチエージェントアーキテクチャに統合する。
広く使われている2つのデータセット(1,612 C#と14k Java tangledコミット)上でColaUntangleを評価する。
論文 参考訳(メタデータ) (2025-07-22T09:42:13Z) - Can LLMs Reason Structurally? An Evaluation via the Lens of Data Structures [21.390740746718947]
DSR-Benchは,大規模言語モデルの構造的推論を体系的に評価する最初のベンチマークである。
ベンチマークは、20のデータ構造、35の操作、および、最小限の汚染で合成生成された4,140の問題インスタンスにまたがる。
論文 参考訳(メタデータ) (2025-05-29T23:24:53Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [66.43738008739555]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases [13.733229886643041]
大きな言語モデル(LLM)は、HumanEvalやMBPPのようなスタンドアロンのコードタスクに優れていますが、コードリポジトリ全体の処理に苦労しています。
類似性に基づく検索は複雑なタスクではリコールが低いことが多いが、手動ツールやAPIは通常タスク固有であり、専門家の知識を必要とする。
我々は,LLMエージェントをコードリポジトリから抽出したグラフデータベースインターフェースと統合するシステムであるCodexGraphを紹介する。
論文 参考訳(メタデータ) (2024-08-07T17:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。