論文の概要: CODEMENV: Benchmarking Large Language Models on Code Migration
- arxiv url: http://arxiv.org/abs/2506.00894v1
- Date: Sun, 01 Jun 2025 08:29:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.774753
- Title: CODEMENV: Benchmarking Large Language Models on Code Migration
- Title(参考訳): CODEMENV: コードのマイグレーションに関する大規模言語モデルのベンチマーク
- Authors: Keyuan Cheng, Xudong Shen, Yihao Yang, Tengyue Wang, Yang Cao, Muhammad Asif Ali, Hanbin Wang, Lijie Hu, Di Wang,
- Abstract要約: CODEMENVは、19のPythonとJavaパッケージにまたがる922のサンプルで構成されている。
特定のバージョンと互換性のない関数の識別、関数定義の変更の検出、ターゲット環境へのコード適応という3つのコアタスクをカバーしている。
CODEMENV上での7つのLLMによる実験的評価では平均パス@1レートが26.50%となり、GPT-4Oは43.84%で最高スコアに達した。
- 参考スコア(独自算出の注目度): 11.735053997817765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities across various software engineering tasks; however, their effectiveness in code migration, adapting code to run in different environments, remains insufficiently studied. In this work, we introduce CODEMENV: Code Migration Across Environment, a new benchmark specifically designed to assess LLMs' abilities in code migration scenarios. CODEMENV consists of 922 examples spanning 19 Python and Java packages, and covers three core tasks: (1) identifying functions incompatible with specific versions, (2) detecting changes in function definitions, and (3) adapting code to target environments. Experimental evaluation with seven LLMs on CODEMENV yields an average pass@1 rate of 26.50%, with GPT-4O achieving the highest score at 43.84%. Key findings include: (i) LLMs tend to be more proficient with newer function versions, which aids in migrating legacy code, and (ii) LLMs sometimes exhibit logical inconsistencies by identifying function changes irrelevant to the intended migration environment. The datasets are available at https://github.com/xdshen-ai/Benchmark-of-Code-Migration.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な能力を示しているが、コードマイグレーションにおけるその効果は、異なる環境で実行されるコードに適応するが、まだ十分に研究されていない。
CODEMENV: Code Migration Across Environmentは、コードマイグレーションシナリオにおけるLLMの能力を評価するために設計された新しいベンチマークである。
CODEMENVは、19のPythonおよびJavaパッケージにまたがる922の例で構成され、(1)特定のバージョンと互換性のない関数の識別、(2)関数定義の変更の検出、(3)ターゲット環境へのコード適応の3つのコアタスクをカバーする。
CODEMENV上での7つのLDMによる実験的評価では平均パス@1レートが26.50%となり、GPT-4Oは43.84%で最高スコアに達した。
主な発見は以下のとおりである。
i) LLMは、レガシコードのマイグレーションを支援する、新しい関数バージョンに習熟する傾向があります。
(II)LLMは,意図した移動環境とは無関係に,機能変化を特定することによって論理的不整合を示すことがある。
データセットはhttps://github.com/xdshen-ai/Benchmark-of-Code-Migrationで公開されている。
関連論文リスト
- MigrationBench: Repository-Level Code Migration Benchmark from Java 8 [18.648973521771396]
MigrationBenchは、Java 8 ドルから最新の長期サポート (LTS) バージョン (Java $117 ドル、21 ドル) への移行のための包括的なベンチマークである。
この課題に対する大規模言語モデル(LLM)の厳密で標準化された評価を容易にするための総合的な評価フレームワークを提供する。
Claude-3.5-Sonnet-v2 で選択されたサブセットに対して、SD-Feedback は、それぞれ、最小と最大のマイグレーションに対して、62.33%$と27.33%$成功率(pass@1)を達成している。
論文 参考訳(メタデータ) (2025-05-14T17:11:23Z) - Scalable, Validated Code Translation of Entire Projects using Large Language Models [13.059046327936393]
大規模言語モデル(LLM)は、慣用的なコードを生成する能力のため、コード翻訳において有望であることを示す。
既存の作品では、100行以上のコードに対する翻訳の成功率が低下している。
私たちは、コードを独立した翻訳が可能な小さなコードフラグメントに分割する、トランスフォーメーションのためのモジュラーアプローチを開発しています。
我々は,最大6,600行のコードと369の関数に対して,信頼性の高いRustを一貫して生成できることを示し,平均73%の関数をI/O同値で検証した。
論文 参考訳(メタデータ) (2024-12-11T02:31:46Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks [1.3586572110652484]
本研究では,大規模文書から文脈情報を取得する上でのLLM(Large Language Models)の機能について検討する。
我々のベンチマークであるBug In The Code Stack (BICS)は、大規模なソースコード内の単純な構文バグを識別するLLMの能力を評価するために設計されている。
その結果,(1)検索タスクのテキストベースの環境に比べ,コードベースの環境の方が有意に困難であり,(2)異なるモデル間の性能差が大きく,(3)コンテキスト長と性能劣化との間には顕著な相関関係があることが判明した。
論文 参考訳(メタデータ) (2024-06-21T17:37:10Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。