Fugu-MT 論文翻訳(概要): CODESYNC: Synchronizing Large Language Models with Dynamic Code Evolution at Scale

論文の概要: CODESYNC: Synchronizing Large Language Models with Dynamic Code Evolution at Scale

arxiv url: http://arxiv.org/abs/2502.16645v1
Date: Sun, 23 Feb 2025 16:46:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.282179
Title: CODESYNC: Synchronizing Large Language Models with Dynamic Code Evolution at Scale
Title（参考訳）: CODESYNC: 大規模言語モデルと動的コード進化の同期
Authors: Chenlong Wang, Zhaoyang Chu, Zhengxiang Cheng, Xuyi Yang, Kaiyue Qiu, Yao Wan, Zhou Zhao, Xuanhua Shi, Dongping Chen,
Abstract要約: 本稿では,古いコードパターンを識別するデータエンジンであるCODESYNCを紹介する。 CODESYNCをベースとしたCODESYNCBENCHは,CODESYNCBENCH(CODESYNCBENCH)という,大規模言語モデルのコード進化と同期する能力を評価するベンチマークである。
参考スコア（独自算出の注目度）: 39.54772602678732
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have exhibited exceptional performance in software engineering yet face challenges in adapting to continually evolving code knowledge, particularly regarding the frequent updates of third-party library APIs. This limitation, stemming from static pre-training datasets, often results in non-executable code or implementations with suboptimal safety and efficiency. To this end, this paper introduces CODESYNC, a data engine for identifying outdated code patterns and collecting real-time code knowledge updates from Python third-party libraries. Building upon CODESYNC, we develop CODESYNCBENCH, a comprehensive benchmark for assessing LLMs' ability to stay synchronized with code evolution, which covers real-world updates for 220 APIs from six Python libraries. Our benchmark offers 3,300 test cases across three evaluation tasks and an update-aware instruction tuning dataset consisting of 2,200 training samples. Extensive experiments on 14 state-of-the-art LLMs reveal that they struggle with dynamic code evolution, even with the support of advanced knowledge updating methods (e.g., DPO, ORPO, and SimPO). We believe that our benchmark can offer a strong foundation for the development of more effective methods for real-time code knowledge updating in the future. The experimental code and dataset are publicly available at: https://github.com/Lucky-voyage/Code-Sync.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ソフトウェアエンジニアリングにおいて例外的なパフォーマンスを示したが、継続的に進化するコード知識、特にサードパーティのライブラリAPIの頻繁な更新に適応する上で、課題に直面している。この制限は、静的な事前トレーニングデータセットに由来するもので、多くの場合、実行不可能なコードや、最適以下の安全性と効率を持つ実装をもたらす。そこで本稿では,古いコードパターンを識別し,Pythonのサードパーティライブラリからリアルタイムコード知識更新を収集するデータエンジンであるCODESYNCを紹介する。 CODESYNCをベースとしたCODESYNCBENCHは、6つのPythonライブラリから220のAPIの実際の更新をカバーし、コード進化と同期するLLMの能力を評価するための包括的なベンチマークである。本ベンチマークでは,3つの評価タスクにわたる3,300のテストケースと,2,200のトレーニングサンプルからなる更新対応のインストラクションチューニングデータセットを提供する。先進的な知識更新手法(例えば、DPO、ORPO、SimPO)をサポートしても、14の最先端のLLMに関する大規模な実験により、動的コード進化に苦慮していることが明らかとなった。我々のベンチマークは、将来リアルタイムコード知識更新のためのより効果的な方法の開発に強力な基盤を提供することができると信じています。実験コードとデータセットは、https://github.com/Lucky-voyage/Code-Syncで公開されている。

関連論文リスト

GitChameleon 2.0: Evaluating AI Code Generation Against Python Library Version Incompatibilities [26.381134558374743]
GitChameleon 2.0は、328のPythonコード補完問題からなる、巧妙にキュレートされた新しいデータセットです。 GitChameleon 2.0は、バージョン条件のコード生成を実行するために、現代の大規模言語モデル(LLM)、LLMエージェント、コードアシスタント、RAGシステムの能力を厳格に評価する。
論文参考訳（メタデータ） (2025-07-16T16:10:42Z)
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique [59.18475981916166]
OpenCodeReasoning-IIは、250万の質問解決批判三部作からなるデータセットである(約35万のユニークなプログラミング質問)。本研究では,2段階の教師付き微調整戦略を採用する。第1段階はコード生成のための微調整に焦点を当て,第2段階はコード生成と批判の両方のためのモデルの共同トレーニングを行う。特に,コード生成と批判モデルの統合は,競争力のある符号化性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-07-11T23:35:54Z)
ReCode: Updating Code API Knowledge with Reinforcement Learning [45.077641074621816]
大規模言語モデル(LLM)は、外部ライブラリAPIの頻繁な更新に適応する際には、優れたコード生成機能を示す。 ReCodeは,APIの変更に対するプログラマの適応を模倣する新しいフレームワークである。我々の実験は、ReCodeが動的APIシナリオにおけるLLMのコード生成性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2025-06-25T14:41:13Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models [36.266383541354294]
まず、DA-Code内のタスクは本質的に困難で、従来のコード生成タスクとは分離されています。次に、DA-Codeの例は、すべて実データと多種多様なデータに基づいており、幅広い複雑なデータラングリングと分析タスクをカバーしている。第三に、これらの課題を解決するためには、複雑なデータサイエンスプログラミング言語を使用し、複雑なデータ処理を実行し、答えを導出する必要がある。
論文参考訳（メタデータ） (2024-10-09T18:00:05Z)
CodeUpdateArena: Benchmarking Knowledge Editing on API Updates [77.81663273436375]
コードドメインの知識編集のためのベンチマークであるCodeUpdateArenaを提示する。私たちのベンチマークのインスタンスは、プログラム合成例と組み合わせた合成API関数のアップデートで構成されています。ベンチマークでは、7つのPythonパッケージから54の関数へ、さまざまなタイプの更新をカバーしています。
論文参考訳（メタデータ） (2024-07-08T17:55:04Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
EVOR: Evolving Retrieval for Code Generation [17.46870626157077]
検索拡張コード生成のための既存のパイプラインは、単一のソースを持つ静的ナレッジベースを使用している。我々は,クエリと多様な知識ベースを同期的に進化させる新しいパイプラインEVORを開発した。
論文参考訳（メタデータ） (2024-02-19T17:37:28Z)
CodeLL: A Lifelong Learning Dataset to Support the Co-Evolution of Data and Language Models of Code [6.491009626125319]
コード変更に焦点を当てた生涯学習データセットであるCodeLLを紹介します。私たちのデータセットは、オープンソースソフトウェアリポジトリのリリース履歴全体にわたるコード変更を包括的にキャプチャすることを目的としています。 CodeLLは、コード変更を学ぶための生涯にわたる微調整設定において、LMの振る舞いを研究することができる。
論文参考訳（メタデータ） (2023-12-20T01:20:24Z)
Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文参考訳（メタデータ） (2023-07-05T16:58:39Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。