Fugu-MT 論文翻訳(概要): XMainframe: A Large Language Model for Mainframe Modernization

論文の概要: XMainframe: A Large Language Model for Mainframe Modernization

arxiv url: http://arxiv.org/abs/2408.04660v2
Date: Mon, 12 Aug 2024 14:12:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 19:54:11.812484
Title: XMainframe: A Large Language Model for Mainframe Modernization
Title（参考訳）: XMainframe: メインフレームの近代化のための大規模言語モデル
Authors: Anh T. V. Dau, Hieu Trung Dao, Anh Tuan Nguyen, Hieu Trung Tran, Phong X. Nguyen, Nghi D. Q. Bui,
Abstract要約: メインフレームオペレーティングシステムは、金融や政府といった重要なセクターをサポートし続けている。これらのシステムは時代遅れと見なされ、大規模な保守と近代化を必要としている。我々は,レガシシステムやメインフレームの知識に特化して設計された,最先端の大規模言語モデル(LLM)であるXMainframeを紹介した。
参考スコア（独自算出の注目度）: 5.217282407759193
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Mainframe operating systems, despite their inception in the 1940s, continue to support critical sectors like finance and government. However, these systems are often viewed as outdated, requiring extensive maintenance and modernization. Addressing this challenge necessitates innovative tools that can understand and interact with legacy codebases. To this end, we introduce XMainframe, a state-of-the-art large language model (LLM) specifically designed with knowledge of mainframe legacy systems and COBOL codebases. Our solution involves the creation of an extensive data collection pipeline to produce high-quality training datasets, enhancing XMainframe's performance in this specialized domain. Additionally, we present MainframeBench, a comprehensive benchmark for assessing mainframe knowledge, including multiple-choice questions, question answering, and COBOL code summarization. Our empirical evaluations demonstrate that XMainframe consistently outperforms existing state-of-the-art LLMs across these tasks. Specifically, XMainframe achieves 30% higher accuracy than DeepSeek-Coder on multiple-choice questions, doubles the BLEU score of Mixtral-Instruct 8x7B on question answering, and scores six times higher than GPT-3.5 on COBOL summarization. Our work highlights the potential of XMainframe to drive significant advancements in managing and modernizing legacy systems, thereby enhancing productivity and saving time for software developers.
Abstract（参考訳）: メインフレームオペレーティングシステムは1940年代に誕生したにもかかわらず、金融や政府といった重要な分野のサポートを続けている。しかし、これらのシステムは時代遅れと見なされ、大規模な保守と近代化を必要としている。この課題に対処するには、レガシーコードベースを理解して操作できる革新的なツールが必要である。この目的のために,メインフレームレガシシステムやCOBOLコードベースの知識に特化して設計された,最先端の大規模言語モデル(LLM)であるXMainframeを紹介した。私たちのソリューションは、高品質なトレーニングデータセットを生成するための広範なデータ収集パイプラインの作成と、この特殊なドメインにおけるXMainframeのパフォーマンスの向上です。さらに、メインフレームの知識を総合的に評価するためのベンチマークであるMainframeBenchを紹介します。 XMainframeは、これらのタスクにおいて、既存の最先端のLCMよりも一貫して優れています。具体的には、XMainframeは複数の質問に対してDeepSeek-Coderよりも30%高い精度を達成し、質問応答においてMixtral-Instruct 8x7BのBLEUスコアを倍増させ、COBOL要約においてGPT-3.5よりも6倍高いスコアを得る。我々の研究は、XMainframeがレガシーシステムの管理と近代化において大きな進歩をもたらし、それによって生産性が向上し、ソフトウェア開発者の時間を節約できる可能性を強調しています。

関連論文リスト

Architecture-Aware Multi-Design Generation for Repository-Level Feature Addition [53.50448142467294]
RAIMは、リポジトリレベルの機能追加のための、多設計およびアーキテクチャ対応のフレームワークである。複数の多様な実装設計を生成することで、線形パッチから切り離される。 NoCode-bench Verifiedデータセットの実験では、RAIMが新しい最先端のパフォーマンスを確立することが示されている。
論文参考訳（メタデータ） (2026-03-02T12:50:40Z)
KGCE: Knowledge-Augmented Dual-Graph Evaluator for Cross-Platform Educational Agent Benchmarking with Multimodal Language Models [2.4487691107306655]
KGCEは知識ベース拡張とデュアルグラフ評価フレームワークを統合する新しいベンチマークプラットフォームである。最初に、104の教育関連タスクからなるデータセットを構築し、Windows、Android、クロスプラットフォームの協調タスクをカバーした。そこで我々は,学校固有のソフトウェアに固有の知識ベースを組み込んだエージェントシステムを開発した。
論文参考訳（メタデータ） (2026-01-04T04:39:39Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique [59.18475981916166]
OpenCodeReasoning-IIは、250万の質問解決批判三部作からなるデータセットである(約35万のユニークなプログラミング質問)。本研究では,2段階の教師付き微調整戦略を採用する。第1段階はコード生成のための微調整に焦点を当て,第2段階はコード生成と批判の両方のためのモデルの共同トレーニングを行う。特に,コード生成と批判モデルの統合は,競争力のある符号化性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-07-11T23:35:54Z)
ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文参考訳（メタデータ） (2025-07-07T12:53:00Z)
DesignBench: A Comprehensive Benchmark for MLLM-based Front-end Code Generation [31.237236649603123]
MLLM(Multimodal Large Language Models)は、フロントエンドの自動化において顕著な機能を示す。 DesignBenchは、自動フロントエンドエンジニアリングにおけるMLLMの機能を評価するためのベンチマークである。
論文参考訳（メタデータ） (2025-06-06T17:21:21Z)
BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。 BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文参考訳（メタデータ） (2025-05-12T08:54:07Z)
Incremental Analysis of Legacy Applications Using Knowledge Graphs for Application Modernization [2.479446117912957]
o6enには何十年も前からある大規模な so6 ウェアシステムがありますこれらのシステムの多くは、Assembler、PL/1、Assemblerなど、古いプログラミング言語で記述されている。
論文参考訳（メタデータ） (2025-05-11T07:33:31Z)
CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation [19.071855537400463]
大規模言語モデル(LLM)はソフトウェア工学において重要な役割を果たし、コード生成やメンテナンスといったタスクに優れています。 CoCo-Benchは、コード理解、コード生成、コード修正、コードレビューの4つの重要な側面にわたるLCMを評価するように設計されている。
論文参考訳（メタデータ） (2025-04-29T11:57:23Z)
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [90.65399476233495]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。 RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論タイプに焦点を当てている。本稿では,人間の判断とLMM-as-a-judgeアプローチの両方を用いて,指示推論,外観整合性,視覚的可視性を評価する評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-03T17:59:56Z)
360Brew: A Decoder-only Foundation Model for Personalized Ranking and Recommendation [15.922317310616952]
我々は、LinkedInのデータとタスクに基づいてトレーニングされ、微調整された150Bパラメータ、デコーダのみのモデルである、研究前のモデルである360Brew V1.0を紹介します。このモデルは、LinkedInプラットフォームのさまざまなセグメントで30以上の予測タスクを解決し、現在のプロダクションシステムと同等以上のパフォーマンスレベルを達成することができる。
論文参考訳（メタデータ） (2025-01-27T19:14:52Z)
CoReQA: Uncovering Potentials of Language Models in Code Repository Question Answering [12.431784613373523]
Code Repositoryレベルの質問応答のベンチマークであるCoReQAを紹介する。 CoReQAはGitHubのイシューと4つのプログラミング言語にまたがる176の人気のあるリポジトリからのコメントから構築された。我々は、現在最先端のプロプライエタリおよび長期コンテキストモデルがリポジトリレベルの問題に効果的に取り組むのに苦労していることを示します。
論文参考訳（メタデータ） (2025-01-07T00:24:07Z)
RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。 RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文参考訳（メタデータ） (2024-10-03T05:45:26Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
Code-Survey: An LLM-Driven Methodology for Analyzing Large-Scale Codebases [3.8153349016958074]
我々は,大規模規模の探索と解析を目的とした最初のLCM駆動型手法であるCode-Surveyを紹介した。調査を慎重に設計することで、Code-Surveyはコミット、Eメールなどの構造化されていないデータを、構造化、構造化、分析可能なデータセットに変換する。これにより、複雑なソフトウェアの進化を定量的に分析し、設計、実装、保守、信頼性、セキュリティに関する貴重な洞察を明らかにすることができる。
論文参考訳（メタデータ） (2024-09-24T17:08:29Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
Xpert: Empowering Incident Management with Query Recommendations via Large Language Models [39.73744433173498]
本稿では,Microsoftの大規模クラウド管理システムにおいて,インシデント管理に使用されるDSLであるKQLのクエリの利用について検討する。我々は、KQLレコメンデーションプロセスを自動化するエンドツーエンドの機械学習フレームワークであるXpertを紹介した。
論文参考訳（メタデータ） (2023-12-19T09:30:58Z)
CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation [72.90209988513995]
CodeXGLUEは、プログラムの理解と生成のための機械学習研究を促進するためのベンチマークデータセットである。 CodeXGLUEには、14データセットにわたる10タスクのコレクションと、モデル評価と比較のためのプラットフォームが含まれている。
論文参考訳（メタデータ） (2021-02-09T06:16:25Z)
Exploring and Analyzing Machine Commonsense Benchmarks [0.13999481573773073]
我々は、これらのアプローチのメタデータを調整するための共通の語彙の欠如は、システムの欠陥を理解するための努力で研究者を制限します。ベンチマークメタデータを形式化する一般的な語彙であるMCS Benchmark Ontologyについて説明します。
論文参考訳（メタデータ） (2020-12-21T19:01:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。