Fugu-MT 論文翻訳(概要): Quality Evaluation of COBOL to Java Code Transformation

論文の概要: Quality Evaluation of COBOL to Java Code Transformation

arxiv url: http://arxiv.org/abs/2507.23356v1
Date: Thu, 31 Jul 2025 09:06:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-01 17:19:09.336031
Title: Quality Evaluation of COBOL to Java Code Transformation
Title（参考訳）: COBOLとJavaコード変換の品質評価
Authors: Shmulik Froimovich, Raviv Gal, Wesam Ibraheem, Avi Ziv,
Abstract要約: 我々は,IBMのWatsonx Code Assistant for Z (WCA4Z)におけるコード翻訳の自動評価システムを提案する。このシステムは、モデル不透明度や翻訳品質評価の複雑さなど、LLMベースの翻訳者を評価する上で重要な課題に対処する。
参考スコア（独自算出の注目度）: 0.22499166814992438
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present an automated evaluation system for assessing COBOL-to-Java code translation within IBM's watsonx Code Assistant for Z (WCA4Z). The system addresses key challenges in evaluating LLM-based translators, including model opacity and the complexity of translation quality assessment. Our approach combines analytic checkers with LLM-as-a-judge (LaaJ) techniques to deliver scalable, multi-faceted evaluations. The system supports continuous integration workflows, enables large-scale benchmarking, and reduces reliance on manual review. We describe the system architecture, evaluation strategies, and reporting mechanisms that provide actionable insights for developers and project managers, facilitating the evolution of high-quality, modernized codebases.
Abstract（参考訳）: 本稿では,IBM の Watsonx Code Assistant for Z (WCA4Z) における COBOL から Java へのコード変換を自動評価するシステムを提案する。このシステムは、モデル不透明度や翻訳品質評価の複雑さなど、LLMベースの翻訳者を評価する上で重要な課題に対処する。分析チェッカーとLLM-as-a-judge(LaaJ)技術を組み合わせて,スケーラブルで多面的評価を実現する。このシステムは継続的インテグレーションワークフローをサポートし、大規模なベンチマークを可能にし、手動によるレビューへの依存を減らす。システムアーキテクチャ、評価戦略、報告メカニズムを説明し、開発者やプロジェクトマネージャに実用的な洞察を提供し、高品質で近代化されたコードベースの進化を促進する。

関連論文リスト

Automated Validation of LLM-based Evaluators for Software Engineering Artifacts [0.7548538278943616]
REFINE(Ranking Evaluators for FIne grained Nuanced Evaluation)は、大規模言語モデル(LLM)をベンチマークする自動化フレームワークである。 REFINEは、徐々に品質が低下したアーティファクトを自動的に合成するために、新しい生成技術を適用している。それぞれの候補評価器の構成を、そのランクが期待された順序にどの程度近いかを測定することで定量化する。
論文参考訳（メタデータ） (2025-08-04T18:52:01Z)
evalSmarT: An LLM-Based Framework for Evaluating Smart Contract Generated Comments [0.0]
大規模な言語モデル(LLM)を評価対象として利用するモジュール型フレームワークである texttevalSmarT を提案する。コメント生成ツールのベンチマークや,最も情報に富んだアウトプットの選択において,その応用を実証する。
論文参考訳（メタデータ） (2025-07-28T12:37:43Z)
Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文参考訳（メタデータ） (2025-07-21T10:52:14Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation [5.880496520248658]
SIMCOPILOTは、対話型"コパイロット"スタイルのコーディングアシスタントとして、大規模言語モデル(LLM)の役割をシミュレートするベンチマークである。ベンチマークには、Java(SIMCOPILOTJ)とPython用の専用のサブベンチマークが含まれている。
論文参考訳（メタデータ） (2025-05-21T04:59:44Z)
Skeleton-Guided-Translation: A Benchmarking Framework for Code Repository Translation with Fine-Grained Quality Evaluation [37.25839260805938]
Skeleton-Guided-Translationは、リポジトリレベルのJavaからC#へのコード変換のためのフレームワークで、きめ細かい品質評価がある。本稿では,高品質なオープンソースJavaレポジトリとその対応するC#スケルトンベンチマークであるTransREPO-BENCHを紹介する。
論文参考訳（メタデータ） (2025-01-27T13:44:51Z)
Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。 LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。 CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文参考訳（メタデータ） (2024-12-02T09:56:18Z)
Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文参考訳（メタデータ） (2024-01-13T15:59:09Z)
DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文参考訳（メタデータ） (2024-01-04T11:27:48Z)
AlignBench: Benchmarking Chinese Alignment of Large Language Models [99.24597941555277]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。自動評価には,Chain-of-Thoughtを用いた多次元LCM-as-Judgecitezheng2023アジュジング手法を用いて説明と最終評価を生成する。
論文参考訳（メタデータ） (2023-11-30T17:41:30Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。