論文の概要: AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion
- arxiv url: http://arxiv.org/abs/2601.19697v1
- Date: Tue, 27 Jan 2026 15:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.364268
- Title: AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion
- Title(参考訳): AlignCoder: リポジトリレベルのコード補完のためのターゲットインテントによる検索の調整
- Authors: Tianyue Jiang, Yanli Wang, Yanlin Wang, Daya Guo, Ensheng Shi, Yuchi Ma, Jiachi Chen, Zibin Zheng,
- Abstract要約: リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。
我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。
我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
- 参考スコア(独自算出の注目度): 55.21541958868449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Repository-level code completion remains a challenging task for existing code large language models (code LLMs) due to their limited understanding of repository-specific context and domain knowledge. While retrieval-augmented generation (RAG) approaches have shown promise by retrieving relevant code snippets as cross-file context, they suffer from two fundamental problems: misalignment between the query and the target code in the retrieval process, and the inability of existing retrieval methods to effectively utilize the inference information. To address these challenges, we propose AlignCoder, a repository-level code completion framework that introduces a query enhancement mechanism and a reinforcement learning based retriever training method. Our approach generates multiple candidate completions to construct an enhanced query that bridges the semantic gap between the initial query and the target code. Additionally, we employ reinforcement learning to train an AlignRetriever that learns to leverage inference information in the enhanced query for more accurate retrieval. We evaluate AlignCoder on two widely-used benchmarks (CrossCodeEval and RepoEval) across five backbone code LLMs, demonstrating an 18.1% improvement in EM score compared to baselines on the CrossCodeEval benchmark. The results show that our framework achieves superior performance and exhibits high generalizability across various code LLMs and programming languages.
- Abstract(参考訳): リポジトリレベルのコード補完は、リポジトリ固有のコンテキストとドメイン知識の理解が限られているため、既存のコード大言語モデル(コードLLM)にとって依然として困難なタスクである。
検索拡張生成(RAG)アプローチは、関連コードスニペットをファイル間コンテキストとして検索することで、将来性を示す一方で、検索プロセスにおけるクエリとターゲットコードとのミスアライメントと、推論情報を効果的に活用する既存の検索方法の欠如という2つの根本的な問題に悩まされている。
これらの課題に対処するために,クエリ強化機構と強化学習に基づく検索学習手法を導入したリポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。
提案手法は,初期クエリと対象コード間のセマンティックギャップをブリッジする拡張クエリを構築するために,複数の候補補完を生成する。
さらに、強化クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverをトレーニングするために強化学習を採用する。
CrossCodeEvalとRepoEvalの2つの広く使用されているベンチマーク(5つのバックボーンコードLLM)でAlignCoderを評価し、CrossCodeEvalベンチマークのベースラインと比較して、EMスコアが18.1%改善したことを示す。
その結果,本フレームワークは優れた性能を示し,様々なコードLLMやプログラミング言語にまたがる高い一般化性を示すことがわかった。
関連論文リスト
- What to Retrieve for Effective Retrieval-Augmented Code Generation? An Empirical Study and Beyond [32.467437657603604]
リポジトリレベルのコード生成は、複雑なコード依存と長いコンテキストの処理における大きな言語モデル(LLM)の制限のため、依然として困難である。
ユーザクエリを実装ステップに分解し,セマンティックな記述マッチングを通じてAPIを検索する,チェーン・オブ・シントを利用した新しいコンテキスト統合手法であるAllianceCoderを提案する。
CoderEvalとRepoExecに関する広範な実験を通じて、AllianceCoderは最先端のパフォーマンスを実現し、Pass@1を既存のアプローチよりも最大20%改善した。
論文 参考訳(メタデータ) (2025-03-26T14:41:38Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - RLCoder: Reinforcement Learning for Repository-Level Code Completion [39.38066628941757]
Repositoryレベルのコード補完は、指定されたリポジトリのコンテキスト内で未完成のコードスニペットのためのコードを生成することを目的としている。
既存のアプローチは主に、入力シーケンス長の制限による検索強化された生成戦略に依存している。
ラベル付きデータを必要とせずに、検索者がコード補完に有用なコンテンツを取得することができる新しい強化学習フレームワークであるRLCoderを提案する。
論文 参考訳(メタデータ) (2024-07-28T12:47:20Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - A Review of Repository Level Prompting for LLMs [0.0]
大規模言語モデル(LLM)は、HumanEvalベンチマークで94.6%の解決率を達成するなど、顕著な成功を収めている。
GitHub CopilotやTab Nineといったリポジトリレベルのインラインコード補完ツールの商用化が進んでいる。
本稿では,個々のコーディング問題からリポジトリスケールソリューションへの移行について述べる。
論文 参考訳(メタデータ) (2023-12-15T00:34:52Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。