論文の概要: ReCode: Improving LLM-based Code Repair with Fine-Grained Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2509.02330v1
- Date: Tue, 02 Sep 2025 13:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.049346
- Title: ReCode: Improving LLM-based Code Repair with Fine-Grained Retrieval-Augmented Generation
- Title(参考訳): ReCode: 微粒化検索拡張生成によるLLMベースのコード修復の改善
- Authors: Yicong Zhao, Shisong Chen, Jiacheng Zhang, Zhixu Li,
- Abstract要約: 本稿では,高精度かつ効率的なコード修復を行うための,詳細な検索強化型テキスト内学習フレームワークReCodeを提案する。
ReCodeは、(1)予備アルゴリズム型予測を用いて検索空間を狭めるアルゴリズム対応検索戦略、(2)コードとテキストの入力を別々に処理するモジュール型デュアルエンコーダアーキテクチャである。
RACodeBenchと競合するプログラミングデータセットの実験結果から、ReCodeは推論コストを大幅に削減し、高い修復精度を実現することが示された。
- 参考スコア(独自算出の注目度): 26.836612605244596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have demonstrated impressive capabilities in code-related tasks, such as code generation and automated program repair. Despite their promising performance, most existing approaches for code repair suffer from high training costs or computationally expensive inference. Retrieval-augmented generation (RAG), with its efficient in-context learning paradigm, offers a more scalable alternative. However, conventional retrieval strategies, which are often based on holistic code-text embeddings, fail to capture the structural intricacies of code, resulting in suboptimal retrieval quality. To address the above limitations, we propose ReCode, a fine-grained retrieval-augmented in-context learning framework designed for accurate and efficient code repair. Specifically, ReCode introduces two key innovations: (1) an algorithm-aware retrieval strategy that narrows the search space using preliminary algorithm type predictions; and (2) a modular dual-encoder architecture that separately processes code and textual inputs, enabling fine-grained semantic matching between input and retrieved contexts. Furthermore, we propose RACodeBench, a new benchmark constructed from real-world user-submitted buggy code, which addresses the limitations of synthetic benchmarks and supports realistic evaluation. Experimental results on RACodeBench and competitive programming datasets demonstrate that ReCode achieves higher repair accuracy with significantly reduced inference cost, highlighting its practical value for real-world code repair scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、コード生成や自動プログラム修復といったコード関連タスクにおいて、印象的な機能を示している。
有望な性能にもかかわらず、コード修復のための既存のアプローチは、高いトレーニングコストや計算に高価な推論に悩まされている。
Retrieval-augmented Generation (RAG)は、よりスケーラブルな代替手段を提供する。
しかし、一般的な検索戦略は、しばしば総体的なコードテキストの埋め込みに基づいており、コードの構造的複雑さを捉えることができず、その結果、準最適検索の品質が得られる。
上記の制限に対処するため、我々はReCodeを提案する。ReCodeは、正確で効率的なコード修復のために設計された、きめ細かな検索強化されたコンテキスト内学習フレームワークである。
具体的には、(1)予備アルゴリズム型予測を用いて検索空間を狭めるアルゴリズム対応検索戦略、(2)コードとテキスト入力を別々に処理し、入力と検索したコンテキスト間のきめ細かいセマンティックマッチングを可能にするモジュール型デュアルエンコーダアーキテクチャである。
さらに,実世界のユーザ投稿バグギーコードから構築された新しいベンチマークであるRACodeBenchを提案し,このベンチマークは,合成ベンチマークの限界に対処し,現実的な評価をサポートする。
RACodeBenchと競合するプログラミングデータセットの実験結果から、ReCodeは推論コストを大幅に削減して、より高い修復精度を実現し、実際のコード修復シナリオの実用的価値を強調している。
関連論文リスト
- What to Retrieve for Effective Retrieval-Augmented Code Generation? An Empirical Study and Beyond [32.467437657603604]
リポジトリレベルのコード生成は、複雑なコード依存と長いコンテキストの処理における大きな言語モデル(LLM)の制限のため、依然として困難である。
ユーザクエリを実装ステップに分解し,セマンティックな記述マッチングを通じてAPIを検索する,チェーン・オブ・シントを利用した新しいコンテキスト統合手法であるAllianceCoderを提案する。
CoderEvalとRepoExecに関する広範な実験を通じて、AllianceCoderは最先端のパフォーマンスを実現し、Pass@1を既存のアプローチよりも最大20%改善した。
論文 参考訳(メタデータ) (2025-03-26T14:41:38Z) - An Empirical Study of Retrieval-Augmented Code Generation: Challenges and Opportunities [19.455889970335967]
コード生成は、自然言語の記述に従って、特定のプログラミング言語のコードスニペットを自動的に生成することを目的としている。
コード生成のための事前訓練されたモデルの1つの大きな課題は、自然言語要求とソースコードのセマンティックギャップである。
Retrieval-augmented frameworkは、要求を理解し、生成プロセスのガイダンスを提供するために利用することができる。
論文 参考訳(メタデータ) (2025-01-23T15:17:51Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search [7.822427053078387]
Generation-Augmented Retrieval (GAR)フレームワークは、クエリを拡張するための例のコードスニペットを生成する。
本稿では、forスタイルの正規化内でコード(ReCo)を書き換える、シンプルで効果的な方法を提案する。
コードスタイル類似度(Code Style similarity)は、コード内のスタイリスティック類似度を定量化するための最初のメートル法である。
論文 参考訳(メタデータ) (2024-01-09T12:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。