Fugu-MT 論文翻訳(概要): CODEMENV: Benchmarking Large Language Models on Code Migration

論文の概要: CODEMENV: Benchmarking Large Language Models on Code Migration

arxiv url: http://arxiv.org/abs/2506.00894v1
Date: Sun, 01 Jun 2025 08:29:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:33.774753
Title: CODEMENV: Benchmarking Large Language Models on Code Migration
Title（参考訳）: CODEMENV: コードのマイグレーションに関する大規模言語モデルのベンチマーク
Authors: Keyuan Cheng, Xudong Shen, Yihao Yang, Tengyue Wang, Yang Cao, Muhammad Asif Ali, Hanbin Wang, Lijie Hu, Di Wang,
Abstract要約: CODEMENVは、19のPythonとJavaパッケージにまたがる922のサンプルで構成されている。特定のバージョンと互換性のない関数の識別、関数定義の変更の検出、ターゲット環境へのコード適応という3つのコアタスクをカバーしている。 CODEMENV上での7つのLLMによる実験的評価では平均パス@1レートが26.50%となり、GPT-4Oは43.84%で最高スコアに達した。
参考スコア（独自算出の注目度）: 11.735053997817765
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have shown remarkable capabilities across various software engineering tasks; however, their effectiveness in code migration, adapting code to run in different environments, remains insufficiently studied. In this work, we introduce CODEMENV: Code Migration Across Environment, a new benchmark specifically designed to assess LLMs' abilities in code migration scenarios. CODEMENV consists of 922 examples spanning 19 Python and Java packages, and covers three core tasks: (1) identifying functions incompatible with specific versions, (2) detecting changes in function definitions, and (3) adapting code to target environments. Experimental evaluation with seven LLMs on CODEMENV yields an average pass@1 rate of 26.50%, with GPT-4O achieving the highest score at 43.84%. Key findings include: (i) LLMs tend to be more proficient with newer function versions, which aids in migrating legacy code, and (ii) LLMs sometimes exhibit logical inconsistencies by identifying function changes irrelevant to the intended migration environment. The datasets are available at https://github.com/xdshen-ai/Benchmark-of-Code-Migration.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々なソフトウェアエンジニアリングタスクにおいて顕著な能力を示しているが、コードマイグレーションにおけるその効果は、異なる環境で実行されるコードに適応するが、まだ十分に研究されていない。 CODEMENV: Code Migration Across Environmentは、コードマイグレーションシナリオにおけるLLMの能力を評価するために設計された新しいベンチマークである。 CODEMENVは、19のPythonおよびJavaパッケージにまたがる922の例で構成され、(1)特定のバージョンと互換性のない関数の識別、(2)関数定義の変更の検出、(3)ターゲット環境へのコード適応の3つのコアタスクをカバーする。 CODEMENV上での7つのLDMによる実験的評価では平均パス@1レートが26.50%となり、GPT-4Oは43.84%で最高スコアに達した。主な発見は以下のとおりである。 i) LLMは、レガシコードのマイグレーションを支援する、新しい関数バージョンに習熟する傾向があります。 (II)LLMは,意図した移動環境とは無関係に,機能変化を特定することによって論理的不整合を示すことがある。データセットはhttps://github.com/xdshen-ai/Benchmark-of-Code-Migrationで公開されている。

関連論文リスト

Environment-Aware Code Generation: How far are We? [52.69113158357018]
大規模言語モデル(LLM)がユーザの特定の環境に適した実行可能コードを確実に生成できるかどうかは不明である。本稿では,環境対応コード生成(EACG)の最初の体系的研究について述べる。その結果,現在のLLMは環境固有のコード生成に苦しむ一方で,環境の適合性や実行性も向上していることがわかった。
論文参考訳（メタデータ） (2026-01-18T04:58:15Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。 SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文参考訳（メタデータ） (2025-06-12T15:52:32Z)
MigrationBench: Repository-Level Code Migration Benchmark from Java 8 [18.648973521771396]
MigrationBenchは、Java 8 ドルから最新の長期サポート (LTS) バージョン (Java $117 ドル、21 ドル) への移行のための包括的なベンチマークである。この課題に対する大規模言語モデル(LLM)の厳密で標準化された評価を容易にするための総合的な評価フレームワークを提供する。 Claude-3.5-Sonnet-v2 で選択されたサブセットに対して、SD-Feedback は、それぞれ、最小と最大のマイグレーションに対して、62.33%$と27.33%$成功率(pass@1)を達成している。
論文参考訳（メタデータ） (2025-05-14T17:11:23Z)
ExeCoder: Empowering Large Language Models with Executability Representation for Code Translation [57.604506522287814]
既存の大きな言語モデル(LLM)は、事前トレーニング中にのみコードのコンテキスト意味を学習する。機能的セマンティクスや構文構造,変数依存性といった実行可能性表現を活用するために,ExeCoderを提案する。 ExeCoderは、既存のオープンソースコードLLMを10.88%以上、38.78%以上、27.44%以上、42.97%以上という、2つのメトリクスで、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-01-30T16:18:52Z)
Scalable, Validated Code Translation of Entire Projects using Large Language Models [13.059046327936393]
大規模言語モデル(LLM)は、慣用的なコードを生成する能力のため、コード翻訳において有望であることを示す。既存の作品では、100行以上のコードに対する翻訳の成功率が低下している。私たちは、コードを独立した翻訳が可能な小さなコードフラグメントに分割する、トランスフォーメーションのためのモジュラーアプローチを開発しています。我々は,最大6,600行のコードと369の関数に対して,信頼性の高いRustを一貫して生成できることを示し,平均73%の関数をI/O同値で検証した。
論文参考訳（メタデータ） (2024-12-11T02:31:46Z)
Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。 OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文参考訳（メタデータ） (2024-10-09T08:23:22Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks [1.3586572110652484]
本研究では,大規模文書から文脈情報を取得する上でのLLM(Large Language Models)の機能について検討する。我々のベンチマークであるBug In The Code Stack (BICS)は、大規模なソースコード内の単純な構文バグを識別するLLMの能力を評価するために設計されている。その結果,(1)検索タスクのテキストベースの環境に比べ,コードベースの環境の方が有意に困難であり,(2)異なるモデル間の性能差が大きく,(3)コンテキスト長と性能劣化との間には顕著な相関関係があることが判明した。
論文参考訳（メタデータ） (2024-06-21T17:37:10Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
Automating Code Adaptation for MLOps -- A Benchmarking Study on LLMs [0.0]
各種MLOps機能の自動達成におけるOpenAI(gpt-3.5-turbo)とWizardCoder(オープンソース,15Bパラメータ)モデルの性能評価を行った。
論文参考訳（メタデータ） (2024-05-10T22:18:43Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。