論文の概要: cAST: Enhancing Code Retrieval-Augmented Generation with Structural Chunking via Abstract Syntax Tree
- arxiv url: http://arxiv.org/abs/2506.15655v1
- Date: Wed, 18 Jun 2025 17:31:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.763867
- Title: cAST: Enhancing Code Retrieval-Augmented Generation with Structural Chunking via Abstract Syntax Tree
- Title(参考訳): cAST:抽象構文木による構造チャンキングによるコード検索拡張生成の強化
- Authors: Yilin Zhang, Xinran Zhao, Zora Zhiruo Wang, Chenyang Yang, Jiayi Wei, Tongshuang Wu,
- Abstract要約: 大規模コード生成にはRAG(Retrieval-Augmented Generation)が不可欠である。
我々の研究は、検索強化されたコードインテリジェンスをスケールする上で、構造対応のチャンキングの重要性を強調している。
- 参考スコア(独自算出の注目度): 35.817085482970356
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has become essential for large-scale code generation, grounding predictions in external code corpora to improve actuality. However, a critical yet underexplored aspect of RAG pipelines is chunking -- the process of dividing documents into retrievable units. Existing line-based chunking heuristics often break semantic structures, splitting functions or merging unrelated code, which can degrade generation quality. We propose chunking via Abstract Syntax Trees (\ourwork), a structure-aware method that recursively breaks large AST nodes into smaller chunks and merges sibling nodes while respecting size limits. This approach generates self-contained, semantically coherent units across programming languages and tasks, improving performance on diverse code generation tasks, e.g., boosting Recall@5 by 4.3 points on RepoEval retrieval and Pass@1 by 2.67 points on SWE-bench generation. Our work highlights the importance of structure-aware chunking for scaling retrieval-enhanced code intelligence.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模コード生成において必須となり、外部コードコーパスの予測を基礎にして現実性を向上させる。
しかしながら、RAGパイプラインの重要かつ過小評価されていない側面は、ドキュメントを検索可能なユニットに分割するプロセスであるチャンキングである。
既存の行ベースのチャンキングヒューリスティックは、しばしばセマンティック構造を破り、関数を分割したり、関連のないコードをマージする。
本稿では,大規模なASTノードを小さなチャンクに再帰的に分割し,サイズ制限を尊重しながら,兄弟ノードをマージする構造認識手法であるAbstract Syntax Trees (\ourwork) によるチャンキングを提案する。
このアプローチは、プログラミング言語やタスクにまたがる自己完結したセマンティック・コヒーレントなユニットを生成し、様々なコード生成タスクのパフォーマンスを改善し、Recall@5をRepoEval検索で4.3ポイント、Pass@1を2.67ポイント向上させる。
我々の研究は、検索強化されたコードインテリジェンスをスケールする上で、構造対応のチャンキングの重要性を強調している。
関連論文リスト
- ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文 参考訳(メタデータ) (2025-05-17T08:48:43Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Outline, Then Details: Syntactically Guided Coarse-To-Fine Code
Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。
自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文 参考訳(メタデータ) (2023-04-28T01:47:09Z) - Improving Code Summarization with Block-wise Abstract Syntax Tree
Splitting [15.28941592388958]
ソースコードの構文構造を表現した抽象構文木(AST)がコード要約の生成をガイドするために組み込まれている。
既存のastベースのメソッドはトレーニングが困難で、不適切なコード要約を生成する。
ASTのリッチツリー形式の構文構造をフル活用したBlock-wise Abstract Syntax Tree Splitting法(BASTS)を提案する。
論文 参考訳(メタデータ) (2021-03-14T05:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。