論文の概要: Quality Evaluation of COBOL to Java Code Transformation
- arxiv url: http://arxiv.org/abs/2507.23356v1
- Date: Thu, 31 Jul 2025 09:06:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.336031
- Title: Quality Evaluation of COBOL to Java Code Transformation
- Title(参考訳): COBOLとJavaコード変換の品質評価
- Authors: Shmulik Froimovich, Raviv Gal, Wesam Ibraheem, Avi Ziv,
- Abstract要約: 我々は,IBMのWatsonx Code Assistant for Z (WCA4Z)におけるコード翻訳の自動評価システムを提案する。
このシステムは、モデル不透明度や翻訳品質評価の複雑さなど、LLMベースの翻訳者を評価する上で重要な課題に対処する。
- 参考スコア(独自算出の注目度): 0.22499166814992438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an automated evaluation system for assessing COBOL-to-Java code translation within IBM's watsonx Code Assistant for Z (WCA4Z). The system addresses key challenges in evaluating LLM-based translators, including model opacity and the complexity of translation quality assessment. Our approach combines analytic checkers with LLM-as-a-judge (LaaJ) techniques to deliver scalable, multi-faceted evaluations. The system supports continuous integration workflows, enables large-scale benchmarking, and reduces reliance on manual review. We describe the system architecture, evaluation strategies, and reporting mechanisms that provide actionable insights for developers and project managers, facilitating the evolution of high-quality, modernized codebases.
- Abstract(参考訳): 本稿では,IBM の Watsonx Code Assistant for Z (WCA4Z) における COBOL から Java へのコード変換を自動評価するシステムを提案する。
このシステムは、モデル不透明度や翻訳品質評価の複雑さなど、LLMベースの翻訳者を評価する上で重要な課題に対処する。
分析チェッカーとLLM-as-a-judge(LaaJ)技術を組み合わせて,スケーラブルで多面的評価を実現する。
このシステムは継続的インテグレーションワークフローをサポートし、大規模なベンチマークを可能にし、手動によるレビューへの依存を減らす。
システムアーキテクチャ、評価戦略、報告メカニズムを説明し、開発者やプロジェクトマネージャに実用的な洞察を提供し、高品質で近代化されたコードベースの進化を促進する。
関連論文リスト
- evalSmarT: An LLM-Based Framework for Evaluating Smart Contract Generated Comments [0.0]
大規模な言語モデル(LLM)を評価対象として利用するモジュール型フレームワークである texttevalSmarT を提案する。
コメント生成ツールのベンチマークや,最も情報に富んだアウトプットの選択において,その応用を実証する。
論文 参考訳(メタデータ) (2025-07-28T12:37:43Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation [5.880496520248658]
SIMCOPILOTは、対話型"コパイロット"スタイルのコーディングアシスタントとして、大規模言語モデル(LLM)の役割をシミュレートするベンチマークである。
ベンチマークには、Java(SIMCOPILOTJ)とPython用の専用のサブベンチマークが含まれている。
論文 参考訳(メタデータ) (2025-05-21T04:59:44Z) - Skeleton-Guided-Translation: A Benchmarking Framework for Code Repository Translation with Fine-Grained Quality Evaluation [37.25839260805938]
Skeleton-Guided-Translationは、リポジトリレベルのJavaからC#へのコード変換のためのフレームワークで、きめ細かい品質評価がある。
本稿では,高品質なオープンソースJavaレポジトリとその対応するC#スケルトンベンチマークであるTransREPO-BENCHを紹介する。
論文 参考訳(メタデータ) (2025-01-27T13:44:51Z) - Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。
LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。
CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文 参考訳(メタデータ) (2024-12-02T09:56:18Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。