論文の概要: CodeCompass: Navigating the Navigation Paradox in Agentic Code Intelligence
- arxiv url: http://arxiv.org/abs/2602.20048v1
- Date: Mon, 23 Feb 2026 16:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.912652
- Title: CodeCompass: Navigating the Navigation Paradox in Agentic Code Intelligence
- Title(参考訳): CodeCompass:エージェントコードインテリジェンスにおけるナビゲーションパラドックスのナビゲート
- Authors: Tarakanath Paipuru,
- Abstract要約: ナビゲーションと検索が根本的に異なる問題であるため,エージェントの動作は不十分である。
コードによるグラフベースの構造ナビゲーション - 依存性グラフを公開するModel Context Protocolサーバ - は、隠れ依存性タスクに対する99.4%のタスク補完を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern code intelligence agents operate in contexts exceeding 1 million tokens--far beyond the scale where humans manually locate relevant files. Yet agents consistently fail to discover architecturally critical files when solving real-world coding tasks. We identify the Navigation Paradox: agents perform poorly not due to context limits, but because navigation and retrieval are fundamentally distinct problems. Through 258 automated trials across 30 benchmark tasks on a production FastAPI repository, we demonstrate that graph-based structural navigation via CodeCompass--a Model Context Protocol server exposing dependency graphs--achieves 99.4% task completion on hidden-dependency tasks, a 23.2 percentage-point improvement over vanilla agents (76.2%) and 21.2 points over BM25 retrieval (78.2%).However, we uncover a critical adoption gap: 58% of trials with graph access made zero tool calls, and agents required explicit prompt engineering to adopt the tool consistently. Our findings reveal that the bottleneck is not tool availability but behavioral alignment--agents must be explicitly guided to leverage structural context over lexical heuristics. We contribute: (1) a task taxonomy distinguishing semantic-search, structural, and hidden-dependency scenarios; (2) empirical evidence that graph navigation outperforms retrieval when dependencies lack lexical overlap; and (3) open-source infrastructure for reproducible evaluation of navigation tools.
- Abstract(参考訳): 現代のコードインテリジェンスエージェントは、人間が手動で関連するファイルを見つけるスケールを超えて、100万トークンを超えるコンテキストで動作する。
しかしエージェントは、現実世界のコーディングタスクを解く際に、アーキテクチャ上重要なファイルを見つけるのに一貫して失敗する。
ナビゲーションパラドックス(Navigation Paradox): エージェントはコンテキスト制限のためではなく、ナビゲーションと検索が根本的に異なる問題であるため、動作が不十分である。
プロダクションのFastAPIリポジトリ上の30のベンチマークタスクを対象とした258の自動トライアルを通じて、我々は、CodeCompass--モデルコンテキストプロトコルサーバによるグラフベースの構造ナビゲーションが依存性グラフを公開していることを実証した。-99.4%のタスク補完、バニラエージェント(76.2%)よりも23.2のポイント改善、BM25検索(78.2%)よりも21.2のポイントを達成している。
グラフアクセスによるトライアルの58%はツールコールをゼロにし、エージェントはツールを一貫して採用するために明確なプロンプトエンジニアリングを必要とした。
本研究の結果から,このボトルネックはツール・アベイラビリティではなく,行動アライメント・エージェントを,語彙的ヒューリスティックスよりも構造的コンテキストを活用するために明示的にガイドする必要があることが明らかとなった。
本研究は,(1)意味探索,構造,および隠れ依存性のシナリオを識別するタスク分類,(2)グラフナビゲーションが語彙的重複を欠いた場合の検索に優れることを示す実証的証拠,(3)再現可能なナビゲーションツール評価のためのオープンソースの基盤を提供する。
関連論文リスト
- Beyond Blame: Rethinking SZZ with Knowledge Graph Search [13.82629698836299]
本稿では,時間的知識グラフ(TKG)をソフトウェア進化解析に適用するための最初のアプローチであるAgenticSZZを提案する。
我々は,AgenicSZZがF1スコア0.48から0.74を達成することを示す。
論文 参考訳(メタデータ) (2026-02-03T00:10:48Z) - OctoBench: Benchmarking Scaffold-Aware Instruction Following in Repository-Grounded Agentic Coding [57.39403818250357]
ここでは,レポジトリベースエージェントコーディングにおける足場認識命令のベンチマークを行うOctoBenchを紹介する。
OctoBenchは34の環境と217のタスクを3つの足場タイプでインスタンス化し、7,098の客観的チェックリストアイテムとペアリングする。
実験により、タスク解決と足場対応の体系的なギャップが明らかになり、トレーニングと評価の必要性が強調される。
論文 参考訳(メタデータ) (2026-01-15T12:36:08Z) - Agent READMEs: An Empirical Study of Context Files for Agentic Coding [8.019313057979522]
我々は1,925のリポジトリから2,303のエージェントコンテキストファイルを調べ、それらの構造、保守、およびコンテンツを特徴付ける。
これらのファイルは静的なドキュメントではなく、コンフィグレーションコードのように進化し、頻繁で小さな追加によって維持される複雑で読みにくいアーティファクトであることが分かりました。
これらの結果は、開発者がコンテキストファイルを使用してエージェントを機能させる一方で、エージェント記述コードの安全性やパフォーマンスを保証するためのガードレールはほとんど提供せず、ツールやプラクティスの改善の必要性を強調していることを示している。
論文 参考訳(メタデータ) (2025-11-17T02:18:55Z) - InteractComp: Evaluating Search Agents With Ambiguous Queries [36.05005463045869]
検索エージェントがクエリのあいまいさを認識でき、検索中に積極的に対話できるかどうかを評価するためのベンチマークであるInteractCompを紹介する。
最高のモデルでは71.50%の完全コンテキストにもかかわらず、13.73%の精度しか達成していない。
この停滞は、検索タスク固有の即時フィードバックと相まって、InteractCompは、検索エージェントのインタラクション機能の評価とトレーニングの両方に有用なリソースとなる。
論文 参考訳(メタデータ) (2025-10-28T17:35:54Z) - InfoAgent: Advancing Autonomous Information-Seeking Agents [143.15973604285304]
本稿では,革新的なデータ合成パイプラインとWeb検索ツールを駆使したディープリサーチエージェントInfoAgentを紹介する。
我々の方法では、InfoAgentはBrowseCompで15.3%、BrowseComp-ZHで29.2%、Xbench-DSで40.4%の精度を達成した。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。