Fugu-MT 論文翻訳(概要): cAST: Enhancing Code Retrieval-Augmented Generation with Structural Chunking via Abstract Syntax Tree

論文の概要: cAST: Enhancing Code Retrieval-Augmented Generation with Structural Chunking via Abstract Syntax Tree

arxiv url: http://arxiv.org/abs/2506.15655v1
Date: Wed, 18 Jun 2025 17:31:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 19:35:51.763867
Title: cAST: Enhancing Code Retrieval-Augmented Generation with Structural Chunking via Abstract Syntax Tree
Title（参考訳）: cAST:抽象構文木による構造チャンキングによるコード検索拡張生成の強化
Authors: Yilin Zhang, Xinran Zhao, Zora Zhiruo Wang, Chenyang Yang, Jiayi Wei, Tongshuang Wu,
Abstract要約: 大規模コード生成にはRAG(Retrieval-Augmented Generation)が不可欠である。我々の研究は、検索強化されたコードインテリジェンスをスケールする上で、構造対応のチャンキングの重要性を強調している。
参考スコア（独自算出の注目度）: 35.817085482970356
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Retrieval-Augmented Generation (RAG) has become essential for large-scale code generation, grounding predictions in external code corpora to improve actuality. However, a critical yet underexplored aspect of RAG pipelines is chunking -- the process of dividing documents into retrievable units. Existing line-based chunking heuristics often break semantic structures, splitting functions or merging unrelated code, which can degrade generation quality. We propose chunking via Abstract Syntax Trees (\ourwork), a structure-aware method that recursively breaks large AST nodes into smaller chunks and merges sibling nodes while respecting size limits. This approach generates self-contained, semantically coherent units across programming languages and tasks, improving performance on diverse code generation tasks, e.g., boosting Recall@5 by 4.3 points on RepoEval retrieval and Pass@1 by 2.67 points on SWE-bench generation. Our work highlights the importance of structure-aware chunking for scaling retrieval-enhanced code intelligence.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) は、大規模コード生成において必須となり、外部コードコーパスの予測を基礎にして現実性を向上させる。しかしながら、RAGパイプラインの重要かつ過小評価されていない側面は、ドキュメントを検索可能なユニットに分割するプロセスであるチャンキングである。既存の行ベースのチャンキングヒューリスティックは、しばしばセマンティック構造を破り、関数を分割したり、関連のないコードをマージする。本稿では,大規模なASTノードを小さなチャンクに再帰的に分割し,サイズ制限を尊重しながら,兄弟ノードをマージする構造認識手法であるAbstract Syntax Trees (\ourwork) によるチャンキングを提案する。このアプローチは、プログラミング言語やタスクにまたがる自己完結したセマンティック・コヒーレントなユニットを生成し、様々なコード生成タスクのパフォーマンスを改善し、Recall@5をRepoEval検索で4.3ポイント、Pass@1を2.67ポイント向上させる。我々の研究は、検索強化されたコードインテリジェンスをスケールする上で、構造対応のチャンキングの重要性を強調している。

関連論文リスト

Do Not Treat Code as Natural Language: Implications for Repository-Level Code Generation and Beyond [13.550121154853715]
自然言語ではなく構造化コードとしてコードを扱う,リポジトリレベルのコード生成フレームワークであるHydraを紹介します。我々はHydraがオープンソースおよびクローズドソースのCodeLLMにまたがって最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2026-02-12T07:44:00Z)
Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation [22.803751188961865]
検索は類似性マッチングを超えて移動し、代わりに潜在コンポーネントを操作するべきだと我々は主張する。我々は、無傷ユニットの階層を構築し、検索可能な高レベルノード組織を維持するxMemoryを提案する。
論文参考訳（メタデータ） (2026-02-02T12:04:58Z)
Completion by Comprehension: Guiding Code Generation with Multi-Granularity Understanding [37.78627994991325]
CoCoは、大規模なコードリポジトリから複数の粒度コンテキストでコード補完を可能にする新しいフレームワークである。 CrossCodeEvalとRepoEvalベンチマークの実験は、CoCoが最先端のベースラインを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-12-04T07:37:59Z)
TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文参考訳（メタデータ） (2025-11-07T16:08:34Z)
ZeroGR: A Generalizable and Scalable Framework for Zero-Shot Generative Retrieval [125.19156877994612]
生成検索(GR)は、情報検索(IR)を文書識別子(ドシデント)の生成としてフレーミングすることによって再構成する我々は、自然言語命令を利用して幅広いIRタスクにわたってGRを拡張するゼロショット生成検索フレームワークであるtextscZeroGRを提案する。具体的には、textscZeroGRは、3つのキーコンポーネントで構成されている: (i)不均一な文書を意味的に意味のあるドシデントに統一するLMベースのドシデントジェネレータ; (ii)自然言語タスク記述から様々なタイプのクエリを生成し、拡張する命令チューニングクエリジェネレータ。
論文参考訳（メタデータ） (2025-10-12T03:04:24Z)
GRACE: Graph-Guided Repository-Aware Code Completion through Hierarchical Code Fusion [33.66085762717581]
LLMはローカライズされたコード補完に優れていますが、コンテキストウィンドウが限られているため、リポジトリレベルのタスクに苦労しています。 GRACEは、静的および動的コードセマンティクスの両方をキャプチャするために、マルチレベルでマルチセマンティックなコードグラフを構築する。実験によると、GRACEはすべてのメトリクスで最先端のメソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2025-09-07T09:01:48Z)
ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文参考訳（メタデータ） (2025-05-17T08:48:43Z)
GNN-Coder: Boosting Semantic Code Retrieval with Combined GNNs and Transformer [15.991615273248804]
抽象構文木(AST)を利用するグラフニューラルネットワーク(GNN)に基づく新しいフレームワークであるGNN-Coderを紹介する。 GNN-Coderは、CSNデータセットのMRRが1%-10%改善され、CosQAデータセットのゼロショットパフォーマンスが20%向上するなど、検索パフォーマンスを著しく向上させる。
論文参考訳（メタデータ） (2025-02-21T04:29:53Z)
ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文参考訳（メタデータ） (2025-02-11T21:35:13Z)
EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文参考訳（メタデータ） (2025-01-08T18:58:15Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
Outline, Then Details: Syntactically Guided Coarse-To-Fine Code Generation [61.50286000143233]
ChainCoderは、Pythonコードを段階的に生成するプログラム合成言語モデルである。自然言語記述と構文的に整合したI/Oデータサンプルを共同で符号化するために、カスタマイズされたトランスフォーマーアーキテクチャを利用する。
論文参考訳（メタデータ） (2023-04-28T01:47:09Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)
Improving Code Summarization with Block-wise Abstract Syntax Tree Splitting [15.28941592388958]
ソースコードの構文構造を表現した抽象構文木(AST)がコード要約の生成をガイドするために組み込まれている。既存のastベースのメソッドはトレーニングが困難で、不適切なコード要約を生成する。 ASTのリッチツリー形式の構文構造をフル活用したBlock-wise Abstract Syntax Tree Splitting法(BASTS)を提案する。
論文参考訳（メタデータ） (2021-03-14T05:04:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。