論文の概要: Formal Architecture Descriptors as Navigation Primitives for AI Coding Agents
- arxiv url: http://arxiv.org/abs/2604.13108v1
- Date: Sat, 11 Apr 2026 00:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.201202
- Title: Formal Architecture Descriptors as Navigation Primitives for AI Coding Agents
- Title(参考訳): AIコーディングエージェントのナビゲーションプリミティブとしての形式的アーキテクチャ記述子
- Authors: Ruoqi Jin,
- Abstract要約: 正式なアーキテクチャ記述子をエージェントに提供することで,このナビゲーションオーバーヘッドを低減できるかどうかを検討する。
本稿では,S-expression アーキテクチャ記述子である intent.lisp を提案し,Forge ツールキットをオープンソース化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI coding agents spend a substantial fraction of their tool calls on undirected codebase exploration. We investigate whether providing agents with formal architecture descriptors can reduce this navigational overhead. We present three complementary studies. First, a controlled experiment (24 code localization tasks x 4 conditions, Claude Sonnet 4.6, temperature=0) demonstrates that architecture context reduces navigation steps by 33-44% (Wilcoxon p=0.009, Cohen's d=0.92), with no significant format difference detected across S-expression, JSON, YAML, and Markdown. Second, an artifact-vs-process experiment (15 tasks x 3 conditions) demonstrates that an automatically generated descriptor achieves 100% accuracy versus 80% blind (p=0.002, d=1.04), proving direct navigational value independent of developer self-clarification. Third, an observational field study across 7,012 Claude Code sessions shows 52% reduction in agent behavioral variance. A writer-side experiment (96 generation runs, 96 error injections) reveals critical failure mode differences: JSON fails atomically, YAML silently corrupts 50% of errors, S-expressions detect all structural completeness errors. We propose intent.lisp, an S-expression architecture descriptor, and open-source the Forge toolkit.
- Abstract(参考訳): AIコーディングエージェントは、ツールコールのかなりの部分を、間接的なコードベース探索に費やしている。
正式なアーキテクチャ記述子をエージェントに提供することで,このナビゲーションオーバーヘッドを低減できるかどうかを検討する。
我々は3つの相補的な研究を提出する。
まず、制御された実験(24のコードローカライゼーションタスク x 4 条件、Claude Sonnet 4.6, temperature=0)では、アーキテクチャコンテキストがナビゲーションステップを 33-44%(Wilcoxon p=0.009, Cohen's d=0.92)削減することを示した。
第2に、アーティファクト-vsプロセスの実験(15タスク x 3 条件)では、自動生成されたディスクリプタが、100%の精度で、80%のブラインド(p=0.002, d=1.04)を達成し、開発者による自己明確化とは無関係に、直接のナビゲーション値が証明されることを示した。
第3に、Clude Codeセッション7,012回にわたる観察的フィールドスタディでは、エージェントの挙動のばらつきが52%減少している。
JSONはアトミックに失敗し、YAMLは50%エラーを静かに破壊し、S表現はすべての構造的完全性エラーを検出します。
本稿では,S-expression アーキテクチャ記述子である intent.lisp を提案し,Forge ツールキットをオープンソース化する。
関連論文リスト
- The Amazing Agent Race: Strong Tool Users, Weak Navigators [27.24330141815882]
LLMエージェントの既存のツール使用ベンチマークは圧倒的に線形である。
The Amazing Agent Race (AAR) は、有向非巡回グラフパズル(または「レッグ」)とフォークマージツールチェーンを特徴付けるベンチマークである。
シーケンシャル(800脚)とコンポジション(600DAG脚)の2つの変種にまたがる1,400のインスタンスをリリースする。
論文 参考訳(メタデータ) (2026-04-11T15:58:29Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - The Specification Gap: Coordination Failure Under Partial Knowledge in Code Agents [0.0]
2エージェント統合の精度は、詳細が削除されると58%から25%に低下する。
因子的回復実験により、完全な仕様を復元するだけで、単一エージェントの天井が回復することが示された。
このギャップは単に隠された情報の結果ではなく、共有された決定なしに互換性のあるコードを生成することの難しさを反映している。
論文 参考訳(メタデータ) (2026-03-25T13:18:26Z) - TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis [23.834704102474927]
コードエージェントはGitHubの問題を解決することができるが、失敗した場合、現在の評価は場所や理由を可視化しない。
本稿では,エージェントトラジェクトリを3つの解釈段階に分解する診断フレームワークTRAJEVALを紹介する。
我々はこれらの診断が予測可能であることを確認し、0.87-2.1% MAEでモデルレベルのPass@1予測を達成する。
論文 参考訳(メタデータ) (2026-03-25T05:27:03Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。