論文の概要: Code-Craft: Hierarchical Graph-Based Code Summarization for Enhanced Context Retrieval
- arxiv url: http://arxiv.org/abs/2504.08975v1
- Date: Fri, 11 Apr 2025 20:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:29.848122
- Title: Code-Craft: Hierarchical Graph-Based Code Summarization for Enhanced Context Retrieval
- Title(参考訳): Code-Craft: 拡張コンテキスト検索のための階層的なグラフベースのコード要約
- Authors: David Sounthiraraj, Jared Hancock, Yassin Kortam, Ashok Javvaji, Prabhat Singh, Shaila Shankar,
- Abstract要約: 本稿では,階層型コードグラフ要約(HCGS)を提案する。これは,コードグラフからボトムアップ形式で構造化された要約を生成することによって,aの多層表現を構築する新しいアプローチである。
HCGSは、従来のコードのみの検索をすべてのメトリクスで一貫して上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Understanding and navigating large-scale codebases remains a significant challenge in software engineering. Existing methods often treat code as flat text or focus primarily on local structural relationships, limiting their ability to provide holistic, context-aware information retrieval. We present Hierarchical Code Graph Summarization (HCGS), a novel approach that constructs a multi-layered representation of a codebase by generating structured summaries in a bottom-up fashion from a code graph. HCGS leverages the Language Server Protocol for language-agnostic code analysis and employs a parallel level-based algorithm for efficient summary generation. Through extensive evaluation on five diverse codebases totaling 7,531 functions, HCGS demonstrates significant improvements in code retrieval accuracy, achieving up to 82 percentage relative improvement in top-1 retrieval precision for large codebases like libsignal (27.15 percentage points), and perfect Pass@3 scores for smaller repositories. The system's hierarchical approach consistently outperforms traditional code-only retrieval across all metrics, with particularly substantial gains in larger, more complex codebases where understanding function relationships is crucial.
- Abstract(参考訳): 大規模なコードベースを理解し、ナビゲートすることは、ソフトウェアエンジニアリングにおいて依然として大きな課題である。
既存の方法は、しばしばコードを平易なテキストとして扱うか、主に局所的な構造的関係に焦点をあてる。
階層型コードグラフ要約(HCGS)は,コードグラフからボトムアップ形式で構造化された要約を生成することによって,コードベースの多層表現を構築する新しいアプローチである。
HCGSは言語に依存しないコード解析のためにLanguage Server Protocolを活用し、並列レベルベースのアルゴリズムを用いて効率的な要約を生成する。
HCGSは、合計7,531の機能を持つ5つの多種多様なコードベースの広範な評価を通じて、コード検索精度を大幅に改善し、libsignal (27.15ポイント)のような大規模コードベースで最大82パーセントの検索精度を達成し、より小さなリポジトリで完全なPass@3スコアを達成した。
システムの階層的なアプローチは、関数の関係を理解することが不可欠である大規模で複雑なコードベースにおいて、従来のコードのみの検索よりも一貫して優れています。
関連論文リスト
- GraphCoder: Enhancing Repository-Level Code Completion via Code Context Graph-based Retrieval and Language Model [30.625128161499195]
GraphCoderは検索拡張コード補完フレームワークである。
一般的なコード知識と、グラフベースの検索生成プロセスを通じてリポジトリ固有の知識を使用する。
コードマッチでは+6.06、識別子マッチでは+6.23となり、時間と空間は少ない。
論文 参考訳(メタデータ) (2024-06-11T06:55:32Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search [7.822427053078387]
Generation-Augmented Retrieval (GAR)フレームワークは、クエリを拡張するための例のコードスニペットを生成する。
本稿では、forスタイルの正規化内でコード(ReCo)を書き換える、シンプルで効果的な方法を提案する。
コードスタイル類似度(Code Style similarity)は、コード内のスタイリスティック類似度を定量化するための最初のメートル法である。
論文 参考訳(メタデータ) (2024-01-09T12:12:50Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - deGraphCS: Embedding Variable-based Flow Graph for Neural Code Search [15.19181807445119]
ソースコードを変数ベースのフローグラフに変換する学習可能なDeGraph for Code Search(deGraphCSと呼ばれる)を提案する。
C言語で記述された41,152のコードスニペットを含む大規模なデータセットをGitHubから収集しています。
論文 参考訳(メタデータ) (2021-03-24T06:57:44Z) - Deep Graph Matching and Searching for Semantic Code Retrieval [76.51445515611469]
本稿では,グラフニューラルネットワークに基づくエンドツーエンドのディープグラフマッチングと探索モデルを提案する。
まず、自然言語クエリテキストとプログラミング言語のコードスニペットをグラフ構造化データで表現する。
特に、DGMSは、個々のクエリテキストやコードスニペットのより構造的な情報をキャプチャするだけでなく、それらの微妙な類似性も学習する。
論文 参考訳(メタデータ) (2020-10-24T14:16:50Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - Retrieval-Augmented Generation for Code Summarization via Hybrid GNN [23.445231228940738]
両世界の利益を両立させる新しい検索強化機構を提案する。
ソースコードのグローバルなグラフ構造情報を取得する際のグラフニューラルネットワーク(GNN)の制限を軽減するために,新しい注目に基づく動的グラフを提案する。
提案手法は,既存の手法をBLEU-4,ROUGE-L,METEORで1.42,2.44,1.29改良し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-06-09T17:09:29Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。