論文の概要: cAST: Enhancing Code Retrieval-Augmented Generation with Structural Chunking via Abstract Syntax Tree
- arxiv url: http://arxiv.org/abs/2506.15655v1
- Date: Wed, 18 Jun 2025 17:31:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.763867
- Title: cAST: Enhancing Code Retrieval-Augmented Generation with Structural Chunking via Abstract Syntax Tree
- Title(参考訳): cAST:抽象構文木による構造チャンキングによるコード検索拡張生成の強化
- Authors: Yilin Zhang, Xinran Zhao, Zora Zhiruo Wang, Chenyang Yang, Jiayi Wei, Tongshuang Wu,
- Abstract要約: 大規模コード生成にはRAG(Retrieval-Augmented Generation)が不可欠である。
我々の研究は、検索強化されたコードインテリジェンスをスケールする上で、構造対応のチャンキングの重要性を強調している。
- 参考スコア(独自算出の注目度): 35.817085482970356
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has become essential for large-scale code generation, grounding predictions in external code corpora to improve actuality. However, a critical yet underexplored aspect of RAG pipelines is chunking -- the process of dividing documents into retrievable units. Existing line-based chunking heuristics often break semantic structures, splitting functions or merging unrelated code, which can degrade generation quality. We propose chunking via Abstract Syntax Trees (\ourwork), a structure-aware method that recursively breaks large AST nodes into smaller chunks and merges sibling nodes while respecting size limits. This approach generates self-contained, semantically coherent units across programming languages and tasks, improving performance on diverse code generation tasks, e.g., boosting Recall@5 by 4.3 points on RepoEval retrieval and Pass@1 by 2.67 points on SWE-bench generation. Our work highlights the importance of structure-aware chunking for scaling retrieval-enhanced code intelligence.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模コード生成において必須となり、外部コードコーパスの予測を基礎にして現実性を向上させる。
しかしながら、RAGパイプラインの重要かつ過小評価されていない側面は、ドキュメントを検索可能なユニットに分割するプロセスであるチャンキングである。
既存の行ベースのチャンキングヒューリスティックは、しばしばセマンティック構造を破り、関数を分割したり、関連のないコードをマージする。
本稿では,大規模なASTノードを小さなチャンクに再帰的に分割し,サイズ制限を尊重しながら,兄弟ノードをマージする構造認識手法であるAbstract Syntax Trees (\ourwork) によるチャンキングを提案する。
このアプローチは、プログラミング言語やタスクにまたがる自己完結したセマンティック・コヒーレントなユニットを生成し、様々なコード生成タスクのパフォーマンスを改善し、Recall@5をRepoEval検索で4.3ポイント、Pass@1を2.67ポイント向上させる。
我々の研究は、検索強化されたコードインテリジェンスをスケールする上で、構造対応のチャンキングの重要性を強調している。
関連論文リスト
- ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文 参考訳(メタデータ) (2025-05-17T08:48:43Z) - GNN-Coder: Boosting Semantic Code Retrieval with Combined GNNs and Transformer [15.991615273248804]
抽象構文木(AST)を利用するグラフニューラルネットワーク(GNN)に基づく新しいフレームワークであるGNN-Coderを紹介する。
GNN-Coderは、CSNデータセットのMRRが1%-10%改善され、CosQAデータセットのゼロショットパフォーマンスが20%向上するなど、検索パフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2025-02-21T04:29:53Z) - ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。
我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。
我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文 参考訳(メタデータ) (2025-02-11T21:35:13Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Outline, Then Details: Syntactically Guided Coarse-To-Fine Code
Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。
自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文 参考訳(メタデータ) (2023-04-28T01:47:09Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Improving Code Summarization with Block-wise Abstract Syntax Tree
Splitting [15.28941592388958]
ソースコードの構文構造を表現した抽象構文木(AST)がコード要約の生成をガイドするために組み込まれている。
既存のastベースのメソッドはトレーニングが困難で、不適切なコード要約を生成する。
ASTのリッチツリー形式の構文構造をフル活用したBlock-wise Abstract Syntax Tree Splitting法(BASTS)を提案する。
論文 参考訳(メタデータ) (2021-03-14T05:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。