論文の概要: Turning the Tide: Repository-based Code Reflection
- arxiv url: http://arxiv.org/abs/2507.09866v1
- Date: Mon, 14 Jul 2025 02:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.174719
- Title: Turning the Tide: Repository-based Code Reflection
- Title(参考訳): タイミングを変える:リポジトリベースのコードリフレクション
- Authors: Wei Zhang, Jian Yang, Jiaxi Yang, Ya Wang, Zhoujun Li, Zeyu Cui, Binyuan Hui, Junyang Lin,
- Abstract要約: マルチファイルリポジトリコンテキストにおけるコード理解と生成を評価するベンチマークであるLiveRepoReflectionを紹介する。
多様性、正確性、難易度を確保するため、6ドル(約6,800円)のプログラミング言語で厳格にテストケースをフィルタリングしました。
RepoReflection-Instructは、さまざまなソースから派生した大規模で品質の高い命令チューニングデータセットである。
- 参考スコア(独自算出の注目度): 52.13709676656648
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Code large language models (LLMs) enhance programming by understanding and generating code across languages, offering intelligent feedback, bug detection, and code updates through reflection, improving development efficiency and accessibility. While benchmarks (e.g. HumanEval/LiveCodeBench) evaluate code generation and real-world relevance, previous works ignore the scenario of modifying code in repositories. Considering challenges remaining in improving reflection capabilities and avoiding data contamination in dynamic benchmarks, we introduce LiveRepoReflection, a challenging benchmark for evaluating code understanding and generation in multi-file repository contexts, featuring 1,888 rigorously filtered test cases across $6$ programming languages to ensure diversity, correctness, and high difficulty. Further, we create RepoReflection-Instruct, a large-scale, quality-filtered instruction-tuning dataset derived from diverse sources, used to train RepoReflectionCoder through a two-turn dialogue process involving code generation and error-driven repair. The leaderboard evaluates over 40 LLMs to reflect the model performance of repository-based code reflection.
- Abstract(参考訳): コード大言語モデル(LLM)は、言語間のコードの理解と生成によってプログラミングを強化し、インテリジェントなフィードバック、バグ検出、リフレクションによるコード更新を提供し、開発効率とアクセシビリティを改善します。
ベンチマーク(HumanEval/LiveCodeBenchなど)はコード生成と実際の関連性を評価するが、以前の作業ではリポジトリ内のコード変更のシナリオを無視していた。
動的ベンチマークにおけるリフレクション機能の改善とデータ汚染の回避に関する課題を考慮して、LiveRepoReflectionを紹介します。これは、多ファイルリポジトリのコンテキストにおけるコードの理解と生成を評価する上で困難なベンチマークであり、多様性、正確性、難易度を保証するために、6ドルのプログラム言語で1,888の厳密なフィルタリングテストケースを備えています。
さらに、多種多様なソースから派生した大規模で品質の高い命令チューニングデータセットであるRepoReflection-Instructを作成し、コード生成とエラー駆動修復を含む2ターン対話プロセスを通じてRepoReflectionCoderをトレーニングする。
リーダボードは40以上のLLMを評価し、リポジトリベースのコードリフレクションのモデルパフォーマンスを反映する。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Knowledge Graph Based Repository-Level Code Generation [0.0]
本稿では,コード検索と検索を改善するための知識グラフに基づく新しい手法を提案する。
提案手法は,コードリポジトリをグラフとして表現し,コンテキスト認識型コード生成のための構造情報とリレーショナル情報をキャプチャする。
提案手法を,リポジトリレベルのコード生成ベンチマークであるEvolutionary Code Benchmarkデータセットにベンチマークし,提案手法がベースラインアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-05-20T14:13:59Z) - RefineCoder: Iterative Improving of Large Language Models via Adaptive Critique Refinement for Code Generation [13.75248879205993]
本稿では,自己生成コードと外部批判によってモデルを洗練できる適応的批評精細化(ACR)を提案する。
ACRは、コード応答の品質を評価するためのLCM-as-a-Judgeを備えた複合スコアシステムを含む。
我々は、ACRを反復的に適用し、複数のコード生成ベンチマークで連続的な性能改善を実現するRefineCoderシリーズを開発した。
論文 参考訳(メタデータ) (2025-02-13T11:17:53Z) - CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - RepoGenReflex: Enhancing Repository-Level Code Completion with Verbal Reinforcement and Retrieval-Augmented Generation [7.167252304211614]
RepoGenReflexは、検索と生成プロセスを動的に最適化する汎用的で動的で効果的なフレームワークである。
Verbal Reinforcement Learning (VRL)で強化されたRetrieval-Augmented Generation (RAG)を活用することで、リポジトリレベルのコード補完に最適な結果が動的に選択できる。
RepoGenReflexは、標準のコード補完タスクよりも優れたパフォーマンスと有効性を示している。
論文 参考訳(メタデータ) (2024-09-19T23:38:59Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - ReflectionCoder: Learning from Reflection Sequence for Enhanced One-off Code Generation [39.778073569406175]
我々は、ワンオフコード生成性能を改善するための新しいアプローチであるReflectionCoderを提案する。
本稿では, 反射法を効果的に活用するために, 反射法自己蒸留法と動的マスク蒸留法を提案する。
実験により,本手法で微調整したモデルにより,最先端の性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-27T11:27:00Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。