論文の概要: Retrieval-Augmented Code Generation: A Survey with Focus on Repository-Level Approaches
- arxiv url: http://arxiv.org/abs/2510.04905v1
- Date: Mon, 06 Oct 2025 15:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.935177
- Title: Retrieval-Augmented Code Generation: A Survey with Focus on Repository-Level Approaches
- Title(参考訳): Retrieval-Augmented Code Generation: Repository-Levelアプローチに着目した調査
- Authors: Yicheng Tao, Yao Qin, Yepang Liu,
- Abstract要約: Retrieval-Augmented Generation (RAG) は、LLMと外部検索機構を統合する強力なパラダイムとして登場した。
リポジトリレベルのアプローチを重視したRACG(Retrieval-Augmented Code Generation)の研究を包括的にレビューする。
私たちのゴールは、この急速に進化する分野を理解するための統合分析フレームワークを確立し、AIによるソフトウェア工学の継続的な進歩を刺激することです。
- 参考スコア(独自算出の注目度): 6.740646039135986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have substantially improved automated code generation. While function-level and file-level generation have achieved promising results, real-world software development typically requires reasoning across entire repositories. This gives rise to the challenging task of Repository-Level Code Generation (RLCG), where models must capture long-range dependencies, ensure global semantic consistency, and generate coherent code spanning multiple files or modules. To address these challenges, Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm that integrates external retrieval mechanisms with LLMs, enhancing context-awareness and scalability. In this survey, we provide a comprehensive review of research on Retrieval-Augmented Code Generation (RACG), with an emphasis on repository-level approaches. We categorize existing work along several dimensions, including generation strategies, retrieval modalities, model architectures, training paradigms, and evaluation protocols. Furthermore, we summarize widely used datasets and benchmarks, analyze current limitations, and outline key challenges and opportunities for future research. Our goal is to establish a unified analytical framework for understanding this rapidly evolving field and to inspire continued progress in AI-powered software engineering.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、コードの自動生成を大幅に改善した。
関数レベルの生成とファイルレベルの生成は有望な結果を得たが、現実のソフトウェア開発は一般的にレポジトリ全体の推論を必要とする。
これはRepository-Level Code Generation(RLCG)という課題を引き起こし、モデルが長距離依存関係をキャプチャし、グローバルなセマンティック一貫性を確保し、複数のファイルやモジュールにまたがる一貫性のあるコードを生成する必要がある。
これらの課題に対処するため、レトリーバル拡張生成(RAG)は、外部検索機構をLCMと統合し、文脈認識と拡張性を向上させる強力なパラダイムとして登場した。
本調査では,リポジトリレベルのアプローチを重視したRACG(Retrieval-Augmented Code Generation)の研究を包括的にレビューする。
我々は、生成戦略、検索モダリティ、モデルアーキテクチャ、トレーニングパラダイム、評価プロトコルなど、いくつかの側面に沿って既存の業務を分類する。
さらに、広く使われているデータセットとベンチマークを要約し、現在の制限を分析し、将来の研究における主要な課題と機会を概説する。
私たちのゴールは、この急速に進化する分野を理解するための統合分析フレームワークを確立し、AIによるソフトウェア工学の継続的な進歩を刺激することです。
関連論文リスト
- Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - Towards Repository-Level Program Verification with Large Language Models [8.05666536952624]
実世界のプロジェクトに自動的な形式検証をスケールするには、モジュール間の依存関係とグローバルなコンテキストを解決する必要がある。
RVBenchは,4つの多種多様な複雑なオープンソースのVerusプロジェクトから構築された,リポジトリレベルの評価のために明示的に設計された最初の検証ベンチマークである。
RagedVerusは、マルチモジュールリポジトリの証明を自動化するために、コンテキスト認識で検索拡張を同期するフレームワークである。
論文 参考訳(メタデータ) (2025-08-31T02:44:04Z) - A Survey on Code Generation with LLM-based Agents [61.474191493322415]
大規模言語モデル(LLM)を利用したコード生成エージェントは、ソフトウェア開発パラダイムに革命をもたらしている。
LLMは3つのコア特徴によって特徴づけられる。
本稿では,LLMに基づくコード生成エージェントの分野を体系的に調査する。
論文 参考訳(メタデータ) (2025-07-31T18:17:36Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - Retrieval-Augmented Generation: A Comprehensive Survey of Architectures, Enhancements, and Robustness Frontiers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルを強化するための強力なパラダイムとして登場した。
RAGは、検索品質、基底忠実度、パイプライン効率、ノイズや逆入力に対する堅牢性といった新しい課題を導入している。
本調査は、RAG研究における現在の知識を集約し、次世代の検索強化言語モデリングシステムの基礎となることを目的としている。
論文 参考訳(メタデータ) (2025-05-28T22:57:04Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - Retrieval-Augmented Generation for Large Language Models: A Survey [17.82361213043507]
大きな言語モデル(LLM)には印象的な能力があるが、幻覚のような課題に直面している。
Retrieval-Augmented Generation (RAG) は,外部データベースからの知識を取り入れた,有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-12-18T07:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。