論文の概要: MigrationBench: Repository-Level Code Migration Benchmark from Java 8
- arxiv url: http://arxiv.org/abs/2505.09569v2
- Date: Mon, 19 May 2025 16:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.661531
- Title: MigrationBench: Repository-Level Code Migration Benchmark from Java 8
- Title(参考訳): MigrationBench: Java 8からのリポジトリレベルのコードマイグレーションベンチマーク
- Authors: Linbo Liu, Xinle Liu, Qiang Zhou, Lin Chen, Yihan Liu, Hoan Nguyen, Behrooz Omidvar-Tehrani, Xi Shen, Jun Huan, Omer Tripp, Anoop Deoras,
- Abstract要約: MigrationBenchは、Java 8 ドルから最新の長期サポート (LTS) バージョン (Java $117 ドル、21 ドル) への移行のための包括的なベンチマークである。
この課題に対する大規模言語モデル(LLM)の厳密で標準化された評価を容易にするための総合的な評価フレームワークを提供する。
Claude-3.5-Sonnet-v2 で選択されたサブセットに対して、SD-Feedback は、それぞれ、最小と最大のマイグレーションに対して、62.33%$と27.33%$成功率(pass@1)を達成している。
- 参考スコア(独自算出の注目度): 18.648973521771396
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid advancement of powerful large language models (LLMs) in recent years, a wide range of software engineering tasks can now be addressed using LLMs, significantly enhancing productivity and scalability. Numerous benchmark datasets have been developed to evaluate the coding capabilities of these models, while they primarily focus on code generation and issue-resolution tasks. In contrast, we introduce a new coding benchmark MigrationBench with a distinct focus: code migration. MigrationBench aims to serve as a comprehensive benchmark for migration from Java $8$ to the latest long-term support (LTS) versions (Java $17$, $21$), including a full dataset and its subset selected with $5,102$ and $300$ repositories respectively. Selected is a representative subset curated for complexity and difficulty, offering a versatile resource to support research in the field of code migration. Additionally, we provide a comprehensive evaluation framework to facilitate rigorous and standardized assessment of LLMs on this challenging task. We further propose SD-Feedback and demonstrate that LLMs can effectively tackle repository-level code migration to Java $17$. For the selected subset with Claude-3.5-Sonnet-v2, SD-Feedback achieves $62.33\%$ and $27.33\%$ success rate (pass@1) for minimal and maximal migration respectively. The benchmark dataset and source code are available at: https://huggingface.co/collections/AmazonScience/migrationbench-68125452fc21a4564b92b6c3 and https://github.com/amazon-science/MigrationBench respectively.
- Abstract(参考訳): 近年の強力な大規模言語モデル(LLM)の急速な進歩により、LLMを使用して幅広いソフトウェアエンジニアリングタスクに対処することが可能となり、生産性とスケーラビリティが大幅に向上した。
これらのモデルのコーディング能力を評価するために、多くのベンチマークデータセットが開発され、主にコード生成と課題解決タスクに焦点を当てている。
これとは対照的に、新しいコーディングベンチマークである MigrationBench を導入しています。
MigrationBenchは、Java 8ドルから最新の長期サポート(LTS)バージョン(Java $117ドル、21ドル)への移行のための包括的なベンチマークとして機能することを目指している。
Selectedは、複雑さと難易度のためにキュレートされた代表的サブセットであり、コードマイグレーションの分野の研究を支援する汎用的なリソースを提供する。
さらに,この課題に対するLCMの厳密かつ標準化された評価を容易にするための総合的な評価フレームワークを提供する。
さらにSD-Feedbackを提案し、LLMがJavaへのレポジトリレベルのコード移行に効果的に取り組むことができることを示した。
Claude-3.5-Sonnet-v2 で選択されたサブセットに対して、SD-Feedback は、それぞれ、最小および最大のマイグレーションに対して、62.33\%$と27.33\%$成功率 (pass@1) を達成する。
ベンチマークデータセットとソースコードは以下の通りである。 https://huggingface.co/collections/AmazonScience/migrationbench-68125452fc21a4564b92b6c3とhttps://github.com/amazon-science/MigrationBench。
関連論文リスト
- SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - ClassEval-T: Evaluating Large Language Models in Class-Level Code Translation [19.69195067838796]
クラスレベルのコード翻訳ベンチマークであるClassEval-Tを構築し、クラスレベルのコード翻訳における最近のLLMの性能を広範囲に評価する最初の試みを行う。
完全なコードサンプルと関連するテストスイートを使って、JavaとC++への手動移行を実現するのに、私たちは360人時間を費やしました。
実験結果は,最も広く研究されているメソッドレベルのコード翻訳ベンチマークと比較して,顕著な性能低下を示した。
論文 参考訳(メタデータ) (2024-11-09T11:13:14Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。