論文の概要: Codebase-Memory: Tree-Sitter-Based Knowledge Graphs for LLM Code Exploration via MCP
- arxiv url: http://arxiv.org/abs/2603.27277v1
- Date: Sat, 28 Mar 2026 14:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.877928
- Title: Codebase-Memory: Tree-Sitter-Based Knowledge Graphs for LLM Code Exploration via MCP
- Title(参考訳): Codebase-Memory:MPPによるLCMコード探索のためのツリーチップベースの知識グラフ
- Authors: Martin Vogel, Falk Meyer-Eschenbach, Severin Kohler, Elias Grünewald, Felix Balzer,
- Abstract要約: 我々は、モデルコンテキストプロトコル(MCP)を介して、永続的なツリーベースの知識グラフを構築するオープンソースシステムであるCodebase-Memoryを提示する。
Codebase-Memoryはファイル探索エージェントの応答品質が83%、92%、トークンが10倍、ツールコールが2.1倍である。
ハブ検出や呼び出し者ランキングなどのグラフネイティブクエリでは、31言語中19言語でエクスプローラーと一致するか、超えている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) coding agents typically explore codebases through repeated file-reading and grep-searching, consuming thousands of tokens per query without structural understanding. We present Codebase-Memory, an open-source system that constructs a persistent, Tree-Sitter-based knowledge graph via the Model Context Protocol (MCP), parsing 66 languages through a multi-phase pipeline with parallel worker pools, call-graph traversal, impact analysis, and community discovery. Evaluated across 31 real-world repositories, Codebase-Memory achieves 83% answer quality versus 92% for a file-exploration agent, at ten times fewer tokens and 2.1 times fewer tool calls. For graph-native queries such as hub detection and caller ranking, it matches or exceeds the explorer on 19 of 31 languages.
- Abstract(参考訳): 大規模言語モデル(LLM)コーディングエージェントは、典型的には、繰り返しファイル読み込みとグレープ検索を通じてコードベースを探索し、構造的な理解なしにクエリ毎に数千のトークンを消費する。
我々は、モデルコンテキストプロトコル(MCP)を介して永続的なツリーベースの知識グラフを構築するオープンソースシステムであるCodebase-Memoryを紹介し、並列ワーカープール、コールグラフトラバーサル、インパクト分析、コミュニティ発見を備えたマルチフェーズパイプラインを通じて66言語を解析する。
31の現実世界のリポジトリで評価され、Codebase-Memoryはファイル探索エージェントの92%に対して83%の回答品質を実現している。
ハブ検出や呼び出し者ランキングなどのグラフネイティブクエリでは、31言語中19言語でエクスプローラーと一致するか、超えている。
関連論文リスト
- On the Challenges and Opportunities of Learned Sparse Retrieval for Code [13.929722643500341]
SPLADE-Codeは、コード検索に特化した学習スパース検索モデルの最初の大規模ファミリである。
本研究では,SPLADE-Codeが1Bパラメータ下での検索者間の最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-03-23T14:14:08Z) - RANGER -- Repository-Level Agent for Graph-Enhanced Retrieval [0.38298911754746934]
汎用自動化ソフトウェアエンジニアリング(ASE)には、コード補完、検索、修復、QA、要約といったタスクが含まれる。
これらのタスクは、コードエンティティやコードエンティティクエリに関する特定のクエリを処理できるコード検索システムを必要とする。
本稿では、両方のクエリタイプに対応するように設計されたリポジトリレベルのコード検索エージェントであるRANGERを紹介する。
論文 参考訳(メタデータ) (2025-09-27T18:57:02Z) - Code-Craft: Hierarchical Graph-Based Code Summarization for Enhanced Context Retrieval [0.0]
本稿では,階層型コードグラフ要約(HCGS)を提案する。これは,コードグラフからボトムアップ形式で構造化された要約を生成することによって,aの多層表現を構築する新しいアプローチである。
HCGSは、従来のコードのみの検索をすべてのメトリクスで一貫して上回っている。
論文 参考訳(メタデータ) (2025-04-11T20:57:27Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases [13.733229886643041]
大きな言語モデル(LLM)は、HumanEvalやMBPPのようなスタンドアロンのコードタスクに優れていますが、コードリポジトリ全体の処理に苦労しています。
類似性に基づく検索は複雑なタスクではリコールが低いことが多いが、手動ツールやAPIは通常タスク固有であり、専門家の知識を必要とする。
我々は,LLMエージェントをコードリポジトリから抽出したグラフデータベースインターフェースと統合するシステムであるCodexGraphを紹介する。
論文 参考訳(メタデータ) (2024-08-07T17:13:59Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。