論文の概要: MIGRATION-BENCH: Repository-Level Code Migration Benchmark from Java 8
- arxiv url: http://arxiv.org/abs/2505.09569v1
- Date: Wed, 14 May 2025 17:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.544015
- Title: MIGRATION-BENCH: Repository-Level Code Migration Benchmark from Java 8
- Title(参考訳): MIGRATION-BENCH: Java 8からのリポジトリレベルのコードマイグレーションベンチマーク
- Authors: Linbo Liu, Xinle Liu, Qiang Zhou, Lin Chen, Yihan Liu, Hoan Nguyen, Behrooz Omidvar-Tehrani, Xi Shen, Jun Huan, Omer Tripp, Anoop Deoras,
- Abstract要約: 我々は新しいコーディングベンチマークMIGRATION-BENCHを紹介した。
MIGRATION-BENCH は、Java 8 から最新の長期サポート (LTS) バージョン (Java 17, 21) への移行のための包括的なベンチマークとして機能することを目指している。
この課題に対する大規模言語モデル(LLM)の厳密で標準化された評価を容易にするための総合的な評価フレームワークを提供する。
- 参考スコア(独自算出の注目度): 18.648973521771396
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid advancement of powerful large language models (LLMs) in recent years, a wide range of software engineering tasks can now be addressed using LLMs, significantly enhancing productivity and scalability. Numerous benchmark datasets have been developed to evaluate the coding capabilities of these models, while they primarily focus on problem-solving and issue-resolution tasks. In contrast, we introduce a new coding benchmark MIGRATION-BENCH with a distinct focus: code migration. MIGRATION-BENCH aims to serve as a comprehensive benchmark for migration from Java 8 to the latest long-term support (LTS) versions (Java 17, 21), MIGRATION-BENCH includes a full dataset and its subset selected with $5,102$ and $300$ repositories respectively. Selected is a representative subset curated for complexity and difficulty, offering a versatile resource to support research in the field of code migration. Additionally, we provide a comprehensive evaluation framework to facilitate rigorous and standardized assessment of LLMs on this challenging task. We further propose SD-Feedback and demonstrate that LLMs can effectively tackle repository-level code migration to Java 17. For the selected subset with Claude-3.5-Sonnet-v2, SD-Feedback achieves 62.33% and 27.00% success rate (pass@1) for minimal and maximal migration respectively. The benchmark dataset and source code are available at: https://huggingface.co/collections/AmazonScience and https://github.com/amazon-science/self_debug respectively.
- Abstract(参考訳): 近年の強力な大規模言語モデル(LLM)の急速な進歩により、LLMを使用して幅広いソフトウェアエンジニアリングタスクに対処することが可能となり、生産性とスケーラビリティが大幅に向上した。
これらのモデルのコーディング能力を評価するために、多くのベンチマークデータセットが開発され、主に問題解決と問題解決に重点を置いている。
対照的に、新しいコーディングベンチマークであるMIGRATION-BENCHを導入する。
MIGRATION-BENCHは、Java 8から最新の長期サポート(LTS)バージョン(Java 17, 21)への移行の包括的なベンチマークとして機能することを目的としており、MIGRATION-BENCHには完全なデータセットと、それぞれ5,102$と300$のリポジトリで選択されたサブセットが含まれている。
Selectedは、複雑さと難易度のためにキュレートされた代表的サブセットであり、コードマイグレーションの分野の研究を支援する汎用的なリソースを提供する。
さらに,この課題に対するLCMの厳密かつ標準化された評価を容易にするための総合的な評価フレームワークを提供する。
さらにSD-Feedbackを提案し、LLMがJava 17へのリポジトリレベルのコード移行に効果的に取り組むことができることを示した。
Claude-3.5-Sonnet-v2で選択されたサブセットでは、SD-Feedbackはそれぞれ62.33%と27.00%の成功率(pass@1)を達成している。
ベンチマークデータセットとソースコードは以下の通りである。 https://huggingface.co/collections/AmazonScienceとhttps://github.com/amazon-science/self_debug。
関連論文リスト
- CODEMENV: Benchmarking Large Language Models on Code Migration [11.735053997817765]
CODEMENVは、19のPythonとJavaパッケージにまたがる922のサンプルで構成されている。
特定のバージョンと互換性のない関数の識別、関数定義の変更の検出、ターゲット環境へのコード適応という3つのコアタスクをカバーしている。
CODEMENV上での7つのLLMによる実験的評価では平均パス@1レートが26.50%となり、GPT-4Oは43.84%で最高スコアに達した。
論文 参考訳(メタデータ) (2025-06-01T08:29:59Z) - LLM-KG-Bench 3.0: A Compass for SemanticTechnology Capabilities in the Ocean of LLMs [0.12564343689544843]
現在のLLM(Large Language Models)は、プログラムコードの開発を、他の多くの側面でも支援できますが、KG(Knowledge Graphs)との連携もサポートできますか?
バージョン3.0のLLM-KG-Benchフレームワークは、これらの質問に答えるために設計されている。
LLM回答を自動評価するための一連のタスクで構成されており、セマンティックテクノロジーの様々な側面をカバーしている。
論文 参考訳(メタデータ) (2025-05-19T13:29:27Z) - Using LLMs for Library Migration [1.9247157750972368]
大規模言語モデル(LLM)は、コードの生成と変換、および類似のコードを見つけるのに長けている。
我々はPyMigBench上でLLama 3.1, GPT-4o mini, GPT-4oの3つのLCMを評価し, 実世界のライブラリマイグレーション321を移行した。
LLama 3.1, GPT-4o mini, GPT-4oはそれぞれ89%, 89%, 94%の移行関連コード変更を正しく移行した。
論文 参考訳(メタデータ) (2025-04-17T18:32:48Z) - Teamwork makes the dream work: LLMs-Based Agents for GitHub README.MD Summarization [7.330697128881243]
様々な大規模言語モデル(LLM)のシナジーを増幅するための新しいアプローチとしてメタジェンテを提案する。
メタジェンテ(Metagente)は、特殊エージェント間の評価、フィードバック、協調を通じてシステムを自己最適化する一連のLLMに基づくマルチエージェントフレームワークである。
最も関連するベンチマークであるGitSumと比較して、パフォーマンスの向上は27.63%から60.43%である。
論文 参考訳(メタデータ) (2025-03-13T20:42:39Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - ClassEval-T: Evaluating Large Language Models in Class-Level Code Translation [19.69195067838796]
クラスレベルのコード翻訳ベンチマークであるClassEval-Tを構築し、クラスレベルのコード翻訳における最近のLLMの性能を広範囲に評価する最初の試みを行う。
完全なコードサンプルと関連するテストスイートを使って、JavaとC++への手動移行を実現するのに、私たちは360人時間を費やしました。
実験結果は,最も広く研究されているメソッドレベルのコード翻訳ベンチマークと比較して,顕著な性能低下を示した。
論文 参考訳(メタデータ) (2024-11-09T11:13:14Z) - Evaluation of Code LLMs on Geospatial Code Generation [1.6834474847800562]
大規模言語モデル(LLM)は、データサイエンスと機械学習アプリケーションのためのPythonコードを生成することができる。
本稿では,空間的タスクの選択に基づいて,コード生成モデルの評価ベンチマークを構築した。
我々のデータセットは、地理空間的コーディングタスクを高精度に解決できる新しいモデルの開発に貢献することを期待している。
論文 参考訳(メタデータ) (2024-10-06T20:34:03Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。