論文の概要: RepoHyper: Better Context Retrieval Is All You Need for Repository-Level
Code Completion
- arxiv url: http://arxiv.org/abs/2403.06095v1
- Date: Sun, 10 Mar 2024 05:10:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 08:29:23.838723
- Title: RepoHyper: Better Context Retrieval Is All You Need for Repository-Level
Code Completion
- Title(参考訳): RepoHyper: Repository-Levelコード補完に必要なコンテキスト検索の改善
- Authors: Huy N. Phan and Hoang N. Phan and Tien N. Nguyen and Nghi D. Q. Bui
- Abstract要約: RepoHyperは、リポジトリレベルのコード補完に関連する複雑な問題に対処するために設計されたフレームワークである。
RepoHyperの中心はRepoレベルのセマンティックグラフ(RSG)であり、コードリポジトリの広大なコンテキストをカプセル化する新しいセマンティックグラフ構造である。
- 参考スコア(独自算出の注目度): 13.299040060528982
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Code Large Language Models (CodeLLMs) have demonstrated impressive
proficiency in code completion tasks. However, they often fall short of fully
understanding the extensive context of a project repository, such as the
intricacies of relevant files and class hierarchies, which can result in less
precise completions. To overcome these limitations, we present RepoHyper, a
multifaceted framework designed to address the complex challenges associated
with repository-level code completion. Central to RepoHyper is the Repo-level
Semantic Graph (RSG), a novel semantic graph structure that encapsulates the
vast context of code repositories. Furthermore, RepoHyper leverages Expand and
Refine retrieval method, including a graph expansion and a link prediction
algorithm applied to the RSG, enabling the effective retrieval and
prioritization of relevant code snippets. Our evaluations show that RepoHyper
markedly outperforms existing techniques in repository-level code completion,
showcasing enhanced accuracy across various datasets when compared to several
strong baselines.
- Abstract(参考訳): code large language model (codellm) は、コード補完タスクに優れた能力を示している。
しかしながら、関連するファイルやクラス階層の複雑さなど、プロジェクトリポジトリの広範なコンテキストを完全に理解できない場合が少なく、完成度が低くなる可能性がある。
これらの制限を克服するために、リポジトリレベルのコード補完に関連する複雑な問題に対処するために設計された、多面的なフレームワークであるRepoHyperを紹介します。
repohyperの中心はrepo-level semantic graph (rsg)であり、コードリポジトリの広大なコンテキストをカプセル化する新しいセマンティックグラフ構造である。
さらに、RepoHyperは、グラフ拡張とRSGに適用されるリンク予測アルゴリズムを含むExpand and Refine検索手法を活用し、関連するコードスニペットの効率的な検索と優先順位付けを可能にする。
評価の結果,リポジトリレベルのコード補完では,repohyperが既存の手法を著しく上回っており,複数の強力なベースラインと比較して,さまざまなデータセットの精度が向上していることが示された。
関連論文リスト
- REPOFUSE: Repository-Level Code Completion with Fused Dual Context [11.531678717514724]
本稿では,遅延トレードオフを伴わずにリポジトリレベルのコード補完を向上するための先駆的ソリューションであるREPOFUSEを紹介する。
本稿では、2種類の文脈を制限された大きさのプロンプトに効率的に凝縮する新しいランク・トランケート・ジェネレーション(RTG)手法を提案する。
REPOFUSEは既存のモデルよりも大幅に飛躍し、コード補完の正確な一致(EM)精度が40.90%から59.75%向上し、推論速度が26.8%向上した。
論文 参考訳(メタデータ) (2024-02-22T06:34:50Z) - CrossCodeEval: A Diverse and Multilingual Benchmark for Cross-File Code
Completion [86.01508183157613]
CrossCodeEvalは4つの人気のあるプログラミング言語の様々な現実世界、オープンソース、パーミッシブライセンスのリポジトリ上に構築されている。
関連するクロスファイルコンテキストが欠如している場合、CrossCodeEvalは極めて困難であることを示す。
また、コードレトリバーの能力を測定するためにCrossCodeEvalが使えることも示しています。
論文 参考訳(メタデータ) (2023-10-17T13:18:01Z) - LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。
ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。
メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文 参考訳(メタデータ) (2023-06-26T17:59:24Z) - RepoFusion: Training Code Models to Understand Your Repository [12.621282610983592]
GitHub Copilotのようなコーディングアシスタントにおける大きな言語モデル(LLM)は、リポジトリに存在するコンテキストを理解するのに苦労している。
最近の研究は、推論中にリポジトリからコンテキストを使用するという約束を示している。
関連するリポジトリコンテキストを組み込むためのモデルをトレーニングするフレームワークであるRepoFusionを提案する。
論文 参考訳(メタデータ) (2023-06-19T15:05:31Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - Supervised Hypergraph Reconstruction [3.69853388955692]
高次相互作用を含む多くの実世界のシステムは、ハイパーグラフによって符号化される。
データセットは、しばしば公開され、投影の形でのみ研究される。
教師付きハイパーグラフ再構成を提案する。
我々のアプローチは、ハードデータセット上での精度の桁違いに全てのベースラインを上回ります。
論文 参考訳(メタデータ) (2022-11-23T23:15:03Z) - Repository-Level Prompt Generation for Large Language Models of Code [28.98699307030983]
本稿では,提案手法を用いてサンプル固有のプロンプトを生成するフレームワークを提案する。
プロンプトプロポーザルはリポジトリ全体からコンテキストを取ります。
我々は,Google Codeアーカイブから取得したコードリポジトリを用いて,単行コード自動補完のタスクについて実験を行った。
論文 参考訳(メタデータ) (2022-06-26T10:51:25Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。