論文の概要: LARGER: Lexically Anchored Repository Graph Exploration and Retrieval
- arxiv url: http://arxiv.org/abs/2605.16352v1
- Date: Fri, 08 May 2026 05:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.908403
- Title: LARGER: Lexically Anchored Repository Graph Exploration and Retrieval
- Title(参考訳): LARGER: レキシカルにアンコレートされたレポジトリグラフ探索と検索
- Authors: Yuntong Hu, Tongli Su, Liang Zhao, Bowen Zhu, Hasibul Haque,
- Abstract要約: リポジトリレベルのコーディングエージェントは、まずタスクに関連するファイルとシンボルをローカライズする必要がある。
既存のアプローチでは、エージェントのインタラクションループを断片化する別々のグラフツールやステージが必要になることが多い。
LARGER(Lexically anchored active-set search framework)は、語彙マッチングから始まり、それらをグラフアンカーにアライメントし、エージェントの既存のサーチループ内で信頼フィルタリングされた局所展開を実行する。
- 参考スコア(独自算出の注目度): 9.90137784523552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Repository-level coding agents must first localize the files and symbols relevant to a task; failures at this stage can cascade across downstream objectives ranging from patch generation to test writing and codebase question answering. Existing agents navigate repositories primarily through lexical search, often missing structural relations such as imports, call chains, type hierarchies, and code-test links. Graph-based retrieval can recover such dependencies, but existing approaches often require separate graph tools or traversal stages that fragment the agent's interaction loop. We formalize repository context localization as Lexically Anchored Structural Localization, where success depends on turning lexical matches into high-precision structural entry points and exposing the most useful confidence-filtered local neighborhoods within the agent's existing search loop. We introduce LARGER (Lexically Anchored Repository Graph Exploration and Retrieval), a lexically anchored active-set retrieval framework that starts from lexical matches, aligns them to graph anchors, and performs confidence-filtered local expansion within the agent's existing search loop. LARGER integrates directly into existing CLI coding agents without requiring external graph databases or specialized graph interfaces. Across four benchmarks spanning localization, test generation, and codebase understanding, LARGER improves file-level Acc@5 on LocBench by +13.9 points with tuned hyperparameters and still gains +11.8 points with fixed hyperparameters over the strongest baseline, while delivering consistent gains on MuLocBench, SWE-Atlas Test Writing, and SWE-Atlas Codebase QA.
- Abstract(参考訳): リポジトリレベルのコーディングエージェントは、まずタスクに関連するファイルやシンボルをローカライズする必要がある。
既存のエージェントは、主に語彙検索を通じてリポジトリをナビゲートするが、多くの場合、インポート、呼び出しチェーン、型階層、コード-テストリンクのような構造的関係が欠落している。
グラフベースの検索はそのような依存関係を回復することができるが、既存のアプローチではエージェントのインタラクションループを断片化する別々のグラフツールやトラバースステージを必要とすることが多い。
我々は,リポジトリのコンテキストローカライゼーションをLexically Anchored Structure Localizationとして定式化し,レキシカルマッチを高精度な構造的エントリポイントに変換し,エージェントの既存のサーチループ内で最も有用な信頼度フィルタリングされたローカルエリアを明らかにする。
LARGER(Lexically Anchored Repository Graph Exploration and Retrieval)は、語彙マッチングから始まり、それらをグラフアンカーにアライメントし、エージェントの既存のサーチループ内で信頼フィルタリングされた局所展開を実行する、語彙的に固定されたアクティブセット検索フレームワークである。
LARGERは、外部グラフデータベースや特殊なグラフインターフェースを必要とせずに、既存のCLIコーディングエージェントに直接統合する。
ローカライゼーション、テスト生成、コードベースの理解にまたがる4つのベンチマークで、LARGERはLocBench上のファイルレベルAcc@5を+13.9ポイント改善し、調整されたハイパーパラメータで+11.8ポイント、最強のベースラインで固定されたハイパーパラメータで+11.8ポイント、MulocBench、SWE-Atlas Test Writing、SWE-Atlas Codebase QAで一貫したゲインを提供する。
関連論文リスト
- ARISE: A Repository-level Graph Representation and Toolset for Agentic Fault Localization and Program Repair [0.0]
ARISE (Agentic Repository-level Issue Solving Engine) は,マルチグラニュラリティプログラムグラフを用いたLLMエージェントを拡張したものである。
ARISEはこのグラフを3層ツールAPIを通じて公開し、データフロースライシングをファーストクラスのクエリ可能なエージェントプリミティブとして提供する。
我々は、Qwen2.5-Coder-32B-Instructをバックボーンとして、SWE-bench Lite(300の実際のGitHubイシュー、11のPythonレポジトリ)を評価した。
論文 参考訳(メタデータ) (2026-05-04T19:59:23Z) - Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction [127.64173950476702]
エージェントが直接、汎用端末ツールを用いて、生コーパスを直接検索する直接コーパス間相互作用(DCI)について検討する。
このアプローチではオフラインインデックスを必要とせず、ローカルコーパスの進化に自然に適応する。
IRベンチマークとエンドツーエンドのエージェント検索タスク全体にわたって、この単純なセットアップは、強いスパース、密度、リランクベースラインよりも大幅に優れています。
論文 参考訳(メタデータ) (2026-05-03T19:13:11Z) - HCRE: LLM-based Hierarchical Classification for Cross-Document Relation Extraction with a Prediction-then-Verification Strategy [54.91468501159335]
文書間関係抽出 (RE) は, 異なる文書に存在する頭部尾部エンティティ間の関係を識別することを目的としている。
本稿では,各レベルでの多視点検証により信頼性を向上させる推論戦略を提案する。
論文 参考訳(メタデータ) (2026-04-09T07:55:27Z) - SAGE: Structure Aware Graph Expansion for Retrieval of Heterogeneous Data [47.930782177987446]
不均一なコーパスに答える検索拡張された質問は、テキスト、テーブル、グラフノード間で接続されたエビデンスを必要とする。
標準レトリバーリーダーパイプラインは、独立にチャンクされたテキスト上の平坦な類似性検索を使用し、モダリティ間のマルチホップエビデンスチェーンを欠いている。
SAGE(Structure Aware Graph Expansion)フレームワークを提案する。これは、パーセンタイルベースのプルーニングとメタデータ駆動の類似性を利用して、チャンクレベルのグラフをオフラインで構築する。
暗黙的クロスモーダルコーパスと明示的スキーマグラフのエージェント検索であるSPARK(Structure Aware Planning Agent for Retrieval over Knowledge Graphs)のハイブリッド高密度スパース検索を用いて初期検索をインスタンス化する。
論文 参考訳(メタデータ) (2026-02-18T23:57:19Z) - GrepRAG: An Empirical Study and Optimization of Grep-Like Retrieval for Code Completion [32.17127975368661]
リポジトリレベルのコード補完は、大きな言語モデルでは依然として困難である。
本稿では,軽量でインデックスなし,意図認識型語彙検索について検討する。
本稿では,LLMが関連するコンテキストを自動生成するベースラインフレームワークであるNaive GrepRAGを紹介する。
論文 参考訳(メタデータ) (2026-01-30T18:22:15Z) - Search-on-Graph: Iterative Informed Navigation for Large Language Model Reasoning on Knowledge Graphs [26.0585592684229]
大規模言語モデル(LLM)は、知識集約型マルチホップ質問では信頼性が保たれていない印象的な推論能力を示している。
本稿では,LLMの反復的なグラフナビゲーションを実現するための,シンプルかつ効果的なフレームワークである検索オングラフ(SoG)を提案する。
Wikidataベンチマーク(以前のベストメソッドよりも+16%改善)とFreebaseベンチマークの一貫性のある改善は特に顕著です。
論文 参考訳(メタデータ) (2025-10-09T21:20:16Z) - RANGER -- Repository-Level Agent for Graph-Enhanced Retrieval [0.38298911754746934]
汎用自動化ソフトウェアエンジニアリング(ASE)には、コード補完、検索、修復、QA、要約といったタスクが含まれる。
これらのタスクは、コードエンティティやコードエンティティクエリに関する特定のクエリを処理できるコード検索システムを必要とする。
本稿では、両方のクエリタイプに対応するように設計されたリポジトリレベルのコード検索エージェントであるRANGERを紹介する。
論文 参考訳(メタデータ) (2025-09-27T18:57:02Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。