論文の概要: Completion by Comprehension: Guiding Code Generation with Multi-Granularity Understanding
- arxiv url: http://arxiv.org/abs/2512.04538v1
- Date: Thu, 04 Dec 2025 07:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.051983
- Title: Completion by Comprehension: Guiding Code Generation with Multi-Granularity Understanding
- Title(参考訳): 理解による完成:多言語理解によるコード生成の指導
- Authors: Xinkui Zhao, Rongkai Liu, Yifan Zhang, Chen Zhi, Lufei Zhang, Guanjie Cheng, Yueshen Xu, Shuiguang Deng, Jianwei Yin,
- Abstract要約: CoCoは、大規模なコードリポジトリから複数の粒度コンテキストでコード補完を可能にする新しいフレームワークである。
CrossCodeEvalとRepoEvalベンチマークの実験は、CoCoが最先端のベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 37.78627994991325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As code completion task from function-level to repository-level, leveraging contextual information from large-scale codebases becomes a core challenge. However, existing retrieval-augmented generation (RAG) methods typically treat code as plain natural language, relying primarily on shallow semantic matching while overlooking structural semantics and code-specific dependencies. This limits their ability to capture control flow and underlying intent, ultimately constraining the quality of generated code. Therefore, we propose CoCo, a novel framework that enables code Completion by Comprehension of multi-granularity context from large-scale code repositories. CoCo employs static code analysis to extract structured context at the function, file, and project levels, capturing execution logic and semantic dependencies. It then adopts an graph-based multi-granularity context selection mechanism to filter out redundant information and remove noise. Consequently, the information is converted into natural language in a consistent manner, thereby functioning as explicit contextual prompts to guide subsequent code completion. Additionally, a structure-aware code re-ranker mechanism ensures alignment at both semantic and structural levels. Extensive experiments on CrossCodeEval and RepoEval benchmarks demonstrate that CoCo consistently surpasses state-of-the-art baselines, achieving up to 20.2% gains in EM. Moreover, the framework is model-agnostic and can be seamlessly integrated into existing methods, leading to significant performance.
- Abstract(参考訳): 関数レベルからリポジトリレベルへのコード補完タスクとして、大規模なコードベースからのコンテキスト情報を活用することが、中核的な課題になります。
しかしながら、既存の検索拡張生成(RAG)メソッドは、典型的には、構造的意味論とコード固有の依存関係を見下ろしながら、主に浅いセマンティックマッチングに依存する、平易な自然言語として扱う。
これにより、コントロールフローと基盤となるインテントをキャプチャする能力が制限され、最終的に生成されたコードの品質が制限される。
そこで我々は,大規模コードリポジトリからの多粒度コンテキストの理解によるコード補完を実現する新しいフレームワークであるCoCoを提案する。
CoCoは静的コード解析を使用して、関数、ファイル、プロジェクトレベルで構造化されたコンテキストを抽出し、実行ロジックとセマンティック依存関係をキャプチャする。
次に、グラフベースのマルチグラニュラリティコンテキスト選択機構を採用して、冗長な情報をフィルタリングし、ノイズを取り除く。
結果として、情報は一貫した方法で自然言語に変換されるため、後続のコード補完をガイドする明示的な文脈的プロンプトとして機能する。
さらに、構造対応のコード再ランカ機構により、セマンティックレベルと構造レベルの両方でアライメントが保証される。
CrossCodeEvalとRepoEvalベンチマークの大規模な実験は、CoCoが最先端のベースラインを一貫して超え、EMで最大20.2%のゲインを達成していることを示している。
さらに、フレームワークはモデルに依存しないため、既存のメソッドにシームレスに統合することができ、大きなパフォーマンスをもたらす。
関連論文リスト
- SaraCoder: Orchestrating Semantic and Structural Cues for Resource-Optimized Repository-Level Code Completion [34.41683042851225]
そこで本研究では,リソース最適化検索拡張手法であるSaraCoderを提案する。
限られたコンテキストウィンドウにおいて、情報の多様性と代表性を最大化する。
我々の研究は、複数の次元にわたる検索結果を体系的に洗練することは、より正確でリソース最適化されたリポジトリレベルのコード補完システムを構築するための新しいパラダイムを提供することを証明している。
論文 参考訳(メタデータ) (2025-08-13T11:56:05Z) - RepoScope: Leveraging Call Chain-Aware Multi-View Context for Repository-Level Code Generation [16.544483144957407]
RepoScopeは、リポジトリレベルのコード生成のためのコールチェーン対応のマルチビューコンテキストである。
本稿では,リポジトリの構造的セマンティクスを利用して,対象関数における呼び出し者の識別を改善する新しいコールチェーン予測手法を提案する。
RepoScopeは最先端の手法より優れており、pass@1スコアの36.35%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2025-07-20T02:35:36Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [66.43738008739555]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。