論文の概要: XMainframe: A Large Language Model for Mainframe Modernization
- arxiv url: http://arxiv.org/abs/2408.04660v2
- Date: Mon, 12 Aug 2024 14:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 19:54:11.812484
- Title: XMainframe: A Large Language Model for Mainframe Modernization
- Title(参考訳): XMainframe: メインフレームの近代化のための大規模言語モデル
- Authors: Anh T. V. Dau, Hieu Trung Dao, Anh Tuan Nguyen, Hieu Trung Tran, Phong X. Nguyen, Nghi D. Q. Bui,
- Abstract要約: メインフレームオペレーティングシステムは、金融や政府といった重要なセクターをサポートし続けている。
これらのシステムは時代遅れと見なされ、大規模な保守と近代化を必要としている。
我々は,レガシシステムやメインフレームの知識に特化して設計された,最先端の大規模言語モデル(LLM)であるXMainframeを紹介した。
- 参考スコア(独自算出の注目度): 5.217282407759193
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Mainframe operating systems, despite their inception in the 1940s, continue to support critical sectors like finance and government. However, these systems are often viewed as outdated, requiring extensive maintenance and modernization. Addressing this challenge necessitates innovative tools that can understand and interact with legacy codebases. To this end, we introduce XMainframe, a state-of-the-art large language model (LLM) specifically designed with knowledge of mainframe legacy systems and COBOL codebases. Our solution involves the creation of an extensive data collection pipeline to produce high-quality training datasets, enhancing XMainframe's performance in this specialized domain. Additionally, we present MainframeBench, a comprehensive benchmark for assessing mainframe knowledge, including multiple-choice questions, question answering, and COBOL code summarization. Our empirical evaluations demonstrate that XMainframe consistently outperforms existing state-of-the-art LLMs across these tasks. Specifically, XMainframe achieves 30% higher accuracy than DeepSeek-Coder on multiple-choice questions, doubles the BLEU score of Mixtral-Instruct 8x7B on question answering, and scores six times higher than GPT-3.5 on COBOL summarization. Our work highlights the potential of XMainframe to drive significant advancements in managing and modernizing legacy systems, thereby enhancing productivity and saving time for software developers.
- Abstract(参考訳): メインフレームオペレーティングシステムは1940年代に誕生したにもかかわらず、金融や政府といった重要な分野のサポートを続けている。
しかし、これらのシステムは時代遅れと見なされ、大規模な保守と近代化を必要としている。
この課題に対処するには、レガシーコードベースを理解して操作できる革新的なツールが必要である。
この目的のために,メインフレームレガシシステムやCOBOLコードベースの知識に特化して設計された,最先端の大規模言語モデル(LLM)であるXMainframeを紹介した。
私たちのソリューションは、高品質なトレーニングデータセットを生成するための広範なデータ収集パイプラインの作成と、この特殊なドメインにおけるXMainframeのパフォーマンスの向上です。
さらに、メインフレームの知識を総合的に評価するためのベンチマークであるMainframeBenchを紹介します。
XMainframeは、これらのタスクにおいて、既存の最先端のLCMよりも一貫して優れています。
具体的には、XMainframeは複数の質問に対してDeepSeek-Coderよりも30%高い精度を達成し、質問応答においてMixtral-Instruct 8x7BのBLEUスコアを倍増させ、COBOL要約においてGPT-3.5よりも6倍高いスコアを得る。
我々の研究は、XMainframeがレガシーシステムの管理と近代化において大きな進歩をもたらし、それによって生産性が向上し、ソフトウェア開発者の時間を節約できる可能性を強調しています。
関連論文リスト
- CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use [1.1041257788838883]
ビジネス文書情報抽出(Business Document Information extract, BDIE)は、非構造化情報の塊を下流システムが解析および使用可能な構造化形式に変換する問題である。
本稿では,BDIEがツール利用問題として最もよくモデル化されていることを論じる。
本稿では,BDIE ベンチマーク上での KIE および LIR タスク上でのSOTA (Retrieval Augmented Structured Generation) の結果を得るための,BDIE のための新しい汎用フレームワークである Retrieval Augmented Structured Generation (RASG) を提案する。
論文 参考訳(メタデータ) (2024-05-30T16:54:42Z) - Bridge and Hint: Extending Pre-trained Language Models for Long-Range Code [20.60634057560564]
我々は,lOng-range符号に対する事前学習言語モデルの拡張フレームワークを提案する。
EXPOには、Bridge MemoryとHint Memoryという2つの革新的なメモリメカニズムが組み込まれている。
我々は、UniXcoderのような5つの人気のある事前学習言語モデルにおけるEXPOの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-18T09:06:41Z) - RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems [51.171355532527365]
本稿では,RAGシステムの解析と最適化を行うRAGGEDフレームワークを紹介する。
エンコーダデコーダとデコーダのみのアーキテクチャにおいて,2つの古典的スパースと高密度検索器,および4つのトップパフォーマンスLMについて検討した。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z) - DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Xpert: Empowering Incident Management with Query Recommendations via
Large Language Models [39.73744433173498]
本稿では,Microsoftの大規模クラウド管理システムにおいて,インシデント管理に使用されるDSLであるKQLのクエリの利用について検討する。
我々は、KQLレコメンデーションプロセスを自動化するエンドツーエンドの機械学習フレームワークであるXpertを紹介した。
論文 参考訳(メタデータ) (2023-12-19T09:30:58Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding
and Generation [72.90209988513995]
CodeXGLUEは、プログラムの理解と生成のための機械学習研究を促進するためのベンチマークデータセットである。
CodeXGLUEには、14データセットにわたる10タスクのコレクションと、モデル評価と比較のためのプラットフォームが含まれている。
論文 参考訳(メタデータ) (2021-02-09T06:16:25Z) - Exploring and Analyzing Machine Commonsense Benchmarks [0.13999481573773073]
我々は、これらのアプローチのメタデータを調整するための共通の語彙の欠如は、システムの欠陥を理解するための努力で研究者を制限します。
ベンチマークメタデータを形式化する一般的な語彙であるMCS Benchmark Ontologyについて説明します。
論文 参考訳(メタデータ) (2020-12-21T19:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。