論文の概要: GrepRAG: An Empirical Study and Optimization of Grep-Like Retrieval for Code Completion
- arxiv url: http://arxiv.org/abs/2601.23254v1
- Date: Fri, 30 Jan 2026 18:22:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.609068
- Title: GrepRAG: An Empirical Study and Optimization of Grep-Like Retrieval for Code Completion
- Title(参考訳): GrepRAG: コード補完のためのGrepライクな検索の実証的研究と最適化
- Authors: Baoyi Wang, Xingliang Wang, Guochang Li, Chen Zhi, Junxiao Han, Xinkui Zhao, Nan Wang, Shuiguang Deng, Jianwei Yin,
- Abstract要約: リポジトリレベルのコード補完は、大きな言語モデルでは依然として困難である。
本稿では,軽量でインデックスなし,意図認識型語彙検索について検討する。
本稿では,LLMが関連するコンテキストを自動生成するベースラインフレームワークであるNaive GrepRAGを紹介する。
- 参考スコア(独自算出の注目度): 32.17127975368661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Repository-level code completion remains challenging for large language models (LLMs) due to cross-file dependencies and limited context windows. Prior work addresses this challenge using Retrieval-Augmented Generation (RAG) frameworks based on semantic indexing or structure-aware graph analysis, but these approaches incur substantial computational overhead for index construction and maintenance. Motivated by common developer workflows that rely on lightweight search utilities (e.g., ripgrep), we revisit a fundamental yet underexplored question: how far can simple, index-free lexical retrieval support repository-level code completion before more complex retrieval mechanisms become necessary? To answer this question, we systematically investigate lightweight, index-free, intent-aware lexical retrieval through extensive empirical analysis. We first introduce Naive GrepRAG, a baseline framework in which LLMs autonomously generate ripgrep commands to retrieve relevant context. Despite its simplicity, Naive GrepRAG achieves performance comparable to sophisticated graph-based baselines. Further analysis shows that its effectiveness stems from retrieving lexically precise code fragments that are spatially closer to the completion site. We also identify key limitations of lexical retrieval, including sensitivity to noisy matches from high-frequency ambiguous keywords and context fragmentation caused by rigid truncation boundaries. To address these issues, we propose GrepRAG, which augments lexical retrieval with a lightweight post-processing pipeline featuring identifier-weighted re-ranking and structure-aware deduplication. Extensive evaluation on CrossCodeEval and RepoEval-Updated demonstrates that GrepRAG consistently outperforms state-of-the-art (SOTA) methods, achieving 7.04-15.58 percent relative improvement in code exact match (EM) over the best baseline on CrossCodeEval.
- Abstract(参考訳): リポジトリレベルのコード補完は、ファイル間の依存関係と限られたコンテキストウィンドウのため、大きな言語モデル(LLM)では依然として困難である。
従来の作業では,セマンティックインデクシングや構造認識グラフ解析に基づくRAG(Retrieval-Augmented Generation)フレームワークを使用してこの問題に対処するが,これらの手法は,インデックスの構築とメンテナンスにおいてかなりの計算オーバーヘッドを発生させる。
ライトウェイトな検索ユーティリティ(例:ripgrep)に依存している一般的な開発者ワークフローに触発された私たちは、根本的な未調査の質問を再考する。 より複雑な検索メカニズムが必要とされるようになる前に、どのくらい、単純でインデックスなしの語彙検索がリポジトリレベルのコード補完をサポートすることができるのか?
この疑問に対処するために、我々は、広範囲な経験分析を通して、軽量でインデックスなし、意図認識の語彙検索を体系的に研究した。
まず,LLMが関連するコンテキストを自動生成するベースラインフレームワークであるNaive GrepRAGを紹介する。
単純さにもかかわらず、Naive GrepRAGは洗練されたグラフベースのベースラインに匹敵するパフォーマンスを実現している。
さらなる分析により、その効果は、完了地点に空間的に近い語彙的に正確なコード断片を取得することに起因することが示されている。
また, 高頻度曖昧なキーワードからの雑音に敏感な一致や, 厳密な絡み合いによる文脈の断片化など, 語彙検索の重要な限界も同定した。
これらの問題に対処するため,GrepRAGを提案する。このGrepRAGは,識別子の重み付けと構造認識の重複を特徴とする,軽量な後処理パイプラインで語彙検索を強化する。
CrossCodeEvalとRepoEval-Updatedの大規模な評価は、GrepRAGが常に最先端(SOTA)メソッドより優れており、CrossCodeEvalの最良のベースラインよりも7.04-15.58パーセントのコード完全一致(EM)が相対的に改善されていることを示している。
関連論文リスト
- SpIDER: Spatially Informed Dense Embedding Retrieval for Software Issue Localization [6.098008057625392]
エージェントアプローチは一般的に、BM25のようなスパース検索手法や、関連するユニットを特定するための密着型埋め込み戦略を用いる。
本研究では,LLMに基づく補助的文脈に基づく推論を組み込んだ高密度検索手法であるSpIDERを提案する。
実験結果から,SpIDERは複数のプログラミング言語間の密集検索性能を一貫して向上することが示された。
論文 参考訳(メタデータ) (2025-12-18T01:32:25Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - LLM-guided Hierarchical Retrieval [54.73080745446999]
LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-10-15T07:05:17Z) - ZeroGR: A Generalizable and Scalable Framework for Zero-Shot Generative Retrieval [125.19156877994612]
生成検索(GR)は、情報検索(IR)を文書識別子(ドシデント)の生成としてフレーミングすることによって再構成する
我々は、自然言語命令を利用して幅広いIRタスクにわたってGRを拡張するゼロショット生成検索フレームワークであるtextscZeroGRを提案する。
具体的には、textscZeroGRは、3つのキーコンポーネントで構成されている: (i)不均一な文書を意味的に意味のあるドシデントに統一するLMベースのドシデントジェネレータ; (ii)自然言語タスク記述から様々なタイプのクエリを生成し、拡張する命令チューニングクエリジェネレータ。
論文 参考訳(メタデータ) (2025-10-12T03:04:24Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Cross-Granularity Hypergraph Retrieval-Augmented Generation for Multi-hop Question Answering [49.43814054718318]
マルチホップ質問応答 (MHQA) は、正しい回答を得るために複数の経路に散在する知識を統合する必要がある。
従来の検索拡張生成法(RAG)は主に粗い粒度のテキスト意味的類似性に焦点を当てている。
本稿では,HGRAG for MHQAという新しいRAG手法を提案する。
論文 参考訳(メタデータ) (2025-08-15T06:36:13Z) - LeanRAG: Knowledge-Graph-Based Generation with Semantic Aggregation and Hierarchical Retrieval [10.566901995776025]
LeanRAGは知識集約と検索戦略を組み合わせたフレームワークです。
グラフ上のパス検索に関連するかなりのオーバーヘッドを軽減し、冗長な情報検索を最小限にする。
論文 参考訳(メタデータ) (2025-08-14T06:47:18Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。