論文の概要: JMigBench: A Benchmark for Evaluating LLMs on Source Code Migration (Java 8 to Java 11)
- arxiv url: http://arxiv.org/abs/2602.09930v1
- Date: Tue, 10 Feb 2026 16:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.669005
- Title: JMigBench: A Benchmark for Evaluating LLMs on Source Code Migration (Java 8 to Java 11)
- Title(参考訳): JMigBench: ソースコードマイグレーション(Java 8からJava 11)におけるLLMの評価ベンチマーク
- Authors: Nishil Amin, Zhiwei Fei, Xiang Li, Justyna Petke, He Ye,
- Abstract要約: ソースコードマイグレーションタスクのための大規模言語モデル(LLM)を評価するベンチマークを構築した。
最初にオープンソースリポジトリから関数ペアのデータセットを収集しましたが、データ品質の制限により、洗練されたデータセットを構築することができました。
このデータセットを用いて、Mistral CodestralモデルをCodeBLEUとメトリクスで評価し、語彙的および意味的類似性およびマイグレーションの正確性を測定した。
- 参考スコア(独自算出の注目度): 9.302832064874357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We build a benchmark to evaluate large language models (LLMs) for source code migration tasks, specifically upgrading functions from Java 8 to Java 11. We first collected a dataset of function pairs from open-source repositories, but limitations in data quality led us to construct a refined dataset covering eight categories of deprecated APIs. Using this dataset, the Mistral Codestral model was evaluated with CodeBLEU and keyword-based metrics to measure lexical and semantic similarity as well as migration correctness. Results show that the evaluated model (Mistral Codestral) can handle trivial one-to-one API substitutions with moderate success, achieving identical migrations in 11.11% of the cases, but it struggles with more complex migrations such as CORBA or JAX-WS. These findings suggest Mistral Codestral can partially reduce developer effort by automating repetitive migration tasks but cannot yet replace humans within the scope of the JMigBench benchmark. The benchmark and analysis provide a foundation for future work on expanding datasets, refining prompting strategies, and improving migration performance across different LLMs.
- Abstract(参考訳): ソースコード移行タスク、特にJava 8からJava 11への関数のアップグレードのための大規模な言語モデル(LLM)を評価するベンチマークを構築します。
最初、オープンソースリポジトリから関数ペアのデータセットを収集しましたが、データ品質の制限により、非推奨のAPIの8つのカテゴリをカバーする洗練されたデータセットを構築しました。
このデータセットを用いて、Mistral CodestralモデルをCodeBLEUとキーワードベースのメトリクスで評価し、語彙的および意味的類似性およびマイグレーションの正確性を測定した。
その結果、評価されたモデル(Mistral Codestral)は、わずか1対1のAPI置換を適度な成功で処理でき、11.11%のケースで同一の移行を達成できるが、CORBAやJAX-WSのようなより複雑な移行に苦慮している。
これらの結果から、Mistral Codestralは反復的なマイグレーションタスクを自動化することで開発者の労力を部分的に削減できるが、JMigBenchベンチマークの範囲内では人間を置き換えることはできないことが示唆された。
このベンチマークと分析は、データセットの拡張、プロンプト戦略の精細化、異なるLLM間のマイグレーションパフォーマンスの改善に関する今後の作業の基礎を提供する。
関連論文リスト
- Automatic Qiskit Code Refactoring Using Large Language Models [39.71511919246829]
大規模言語モデル(LLM)を用いたQiskit符号の新しい手法を提案する。
まず、公式のQiskitドキュメントのさまざまなソースから、マイグレーションシナリオの分類を抽出することから始めます。
この分類法は、元のPythonソースコードとともに、LLMへの入力として提供され、コード内の移行シナリオのインスタンスを識別する。
論文 参考訳(メタデータ) (2025-06-17T14:00:48Z) - CODEMENV: Benchmarking Large Language Models on Code Migration [11.735053997817765]
CODEMENVは、19のPythonとJavaパッケージにまたがる922のサンプルで構成されている。
特定のバージョンと互換性のない関数の識別、関数定義の変更の検出、ターゲット環境へのコード適応という3つのコアタスクをカバーしている。
CODEMENV上での7つのLLMによる実験的評価では平均パス@1レートが26.50%となり、GPT-4Oは43.84%で最高スコアに達した。
論文 参考訳(メタデータ) (2025-06-01T08:29:59Z) - MigrationBench: Repository-Level Code Migration Benchmark from Java 8 [18.648973521771396]
MigrationBenchは、Java 8 ドルから最新の長期サポート (LTS) バージョン (Java $117 ドル、21 ドル) への移行のための包括的なベンチマークである。
この課題に対する大規模言語モデル(LLM)の厳密で標準化された評価を容易にするための総合的な評価フレームワークを提供する。
Claude-3.5-Sonnet-v2 で選択されたサブセットに対して、SD-Feedback は、それぞれ、最小と最大のマイグレーションに対して、62.33%$と27.33%$成功率(pass@1)を達成している。
論文 参考訳(メタデータ) (2025-05-14T17:11:23Z) - MigGPT: Harnessing Large Language Models for Automated Migration of Out-of-Tree Linux Kernel Patches Across Versions [53.811953357289866]
大規模言語モデル(LLM)は、様々な領域で顕著な進歩を示している。
LLMは不完全なコードコンテキスト理解と不正確なマイグレーションポイント識別に苦労する。
MigGPTは、コードスニペット情報を保持するために新しいコード指紋構造を使用するフレームワークである。
論文 参考訳(メタデータ) (2025-04-13T08:08:37Z) - Retrieval-augmented code completion for local projects using large language models [0.0]
我々は、オープンソースのPythonファイル上に、生成型GPT-2と検索適応型RETROの2つのオープントランスフォーマーベースモデルをトレーニングする。
In-context search-augmented generation (RAG)により,トークンのJaccard類似性を用いてコードスニペットを検索するモデルの性能を改善する。
実験結果から、In-context RAGはコード補完ベースラインを26%以上改善し、RETROは同様のサイズのGPT-2ベースラインを12%改善した。
論文 参考訳(メタデータ) (2024-08-09T12:26:57Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。