論文の概要: COBOL-Coder: Domain-Adapted Large Language Models for COBOL Code Generation and Translation
- arxiv url: http://arxiv.org/abs/2604.03986v1
- Date: Sun, 05 Apr 2026 06:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.863882
- Title: COBOL-Coder: Domain-Adapted Large Language Models for COBOL Code Generation and Translation
- Title(参考訳): COBOLコーダ:COBOLコード生成と翻訳のためのドメイン適応大言語モデル
- Authors: Anh T. V. Dau, Shin Hwei Tan, Jinqiu Yang, Nghi D. Q. Bui, Anh Tuan Nguyen,
- Abstract要約: 既存の大規模言語モデル(LLM)は、コードを正しく生成し翻訳するのに苦労する。
本稿では,コンパイラ誘導型検証とマルチステージ類似度に基づくフィルタリングを組み合わせた自動データキュレーションパイプラインを提案する。
Code-Coderは最大73.95パーセントのコンパイル成功率と49.33のPass-1 onEvalを実現している。
- 参考スコア(独自算出の注目度): 10.733306714499067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: COBOL remains a critical language for mainframe systems, yet existing large language models (LLMs) struggle to generate and translate COBOL code correctly. This paper reports our experience in developing and evaluating domain-adapted LLMs for COBOL and mainframe software engineering. We introduce (1) an automated data curation pipeline that combines compiler-guided validation with multi-stage similarity-based filtering to construct high-quality COBOL training data, and (2) COBOL-Coder, a COBOL-specialized LLM fine-tuned on the curated COBOL domain data. We evaluate COBOL-Coder on two tasks: code generation (on COBOLEval and COBOLCodeBench) and code translation (on COBOL-JavaTrans, our proposed benchmark for bidirectional COBOL-Java translation). In our experiments, COBOL-Coder achieves up to a 73.95 percent compilation success rate and 49.33 Pass-1 on COBOLEval, compared to 41.8 percent and 16.4 for GPT-4o, while most open-source baselines (e.g., CodeGemma, CodeLlama, StarCoder2) fail to produce compilable programs. For Java-to-COBOL translation, COBOL-Coder reaches 34.93 Pass-1, whereas general-purpose LLMs achieve near-zero scores. To assess the usability of LLM-generated code in real-world settings, we conduct a survey with experienced COBOL developers. Participants consistently report that COBOL-Coder exhibits stronger COBOL awareness, has more reliable program structure, and is better aligned with enterprise practices than general-purpose LLMs.
- Abstract(参考訳): COBOLはメインフレームシステムにとって重要な言語であるが、既存の大規模言語モデル(LLM)はCOBOLコードを正しく生成し翻訳するのに苦労している。
本稿では,COBOL とメインフレームソフトウェアエンジニアリングのためのドメイン適応 LLM の開発と評価の経験について報告する。
我々は,(1)コンパイラ誘導型検証と多段階類似度に基づくフィルタリングを組み合わせた自動データキュレーションパイプラインを導入し,(2)COBOL特化LDMであるCOBOL-Coderを提案する。
我々はCOBOL-Coderをコード生成(COBOLEvalとCOBOLCodeBench)とコード翻訳(COBOL-JavaTrans)の2つのタスクで評価する。
我々の実験では、COBOL-Coderは最大73.95パーセントのコンパイル成功率と49.33 Pass-1をCOBOLEval上で達成し、GPT-4oでは41.8パーセントと16.4であるのに対し、ほとんどのオープンソースベースライン(CodeGemma、CodeLlama、StarCoder2)はコンパイル可能なプログラムを作成できない。
Java-to-COBOL翻訳では、COBOL-Coderは34.93 Pass-1に達し、汎用LLMはゼロに近いスコアを得る。
実環境におけるLCM生成コードのユーザビリティを評価するため,経験豊富なCOBOL開発者を対象に調査を行った。
参加者は、COBOL-Coderはより強力なCOBOL認識を示し、より信頼性の高いプログラム構造を持ち、汎用LLMよりも企業プラクティスに適合している、と常に報告している。
関連論文リスト
- COBOLAssist: Analyzing and Fixing Compilation Errors for LLM-Powered COBOL Code Generation [10.733306714499067]
本稿では,コンパイルエラーの問題を考察し,これらの問題に対処するための大規模言語モデル(LLM)を利用したフレームワークを提案する。
まず、LLM生成コードの一般的なコンパイルエラーを、不完全なコードエラー、構文エラー、型関連エラーの3つのグループに分類する。
論文 参考訳(メタデータ) (2026-04-05T05:51:54Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Enhancing COBOL Code Explanations: A Multi-Agents Approach Using Large Language Models [1.835291631794229]
本稿では,機能,ファイル,プロジェクト全体の説明を生成するマルチエージェント手法を提案する。
提案手法の有効性を,14のオープンソースプロジェクトを用いて評価した。
論文 参考訳(メタデータ) (2025-07-02T22:28:35Z) - Automated Validation of COBOL to Java Transformation [5.162381960073761]
我々は,Javaの等価性と翻訳の妥当性を検証するためのフレームワークとツールを提案する。
問題が発生した場合のコード修正や,改善のためのAIモデルへのフィードバックの提供にも役立ちます。
論文 参考訳(メタデータ) (2025-04-14T06:13:32Z) - Automated Testing of COBOL to Java Transformation [5.395038658302793]
我々はIBM Watsonx Code Assistant for Z (WCA4Z) [5] のテストフレームワークを開発した。
私たちのフレームワークはシンボリックな実行を使用して、外部呼び出しをモックし、それらをJUnitテストに変換して、翻訳されたJavaでセマンティックな等価性を検証します。
論文 参考訳(メタデータ) (2025-04-14T04:53:30Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - CP-BCS: Binary Code Summarization Guided by Control Flow Graph and
Pseudo Code [79.87518649544405]
本稿ではCP-BCSと呼ばれる制御フローグラフと擬似コード案内バイナリコード要約フレームワークを提案する。
CP-BCSは双方向の命令レベル制御フローグラフと擬似コードを利用して、専門家の知識を取り入れ、包括的なバイナリ関数の実行動作と論理意味論を学ぶ。
論文 参考訳(メタデータ) (2023-10-24T14:20:39Z) - X-COBOL: A Dataset of COBOL Repositories [4.8342038441006805]
私たちはGitHubから発掘された84のリポジトリのデータセットを構築しました。
私たちのデータセットは、マイニングされたリポジトリ内に存在する1255のファイルも提供しています。
論文 参考訳(メタデータ) (2023-06-08T02:42:09Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。