論文の概要: Leveraging LLMs for Legacy Code Modernization: Challenges and Opportunities for LLM-Generated Documentation
- arxiv url: http://arxiv.org/abs/2411.14971v1
- Date: Fri, 22 Nov 2024 14:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:04:19.927664
- Title: Leveraging LLMs for Legacy Code Modernization: Challenges and Opportunities for LLM-Generated Documentation
- Title(参考訳): レガシーコードモダナイゼーションのための LLM の活用 - LLM 生成ドキュメンテーションの課題と機会-
- Authors: Colin Diggs, Michael Doyle, Amit Madan, Siggy Scott, Emily Escamilla, Jacob Zimmer, Naveed Nekoo, Paul Ursino, Michael Bartholf, Zachary Robin, Anand Patel, Chris Glasz, William Macke, Paul Kirk, Jasper Phillips, Arun Sridharan, Doug Wendt, Scott Rosen, Nitin Naik, Justin F. Brunelle, Samruddhi Thaker,
- Abstract要約: MUMPSやメインフレームアセンブリといった時代遅れの言語で記述されたレガシーソフトウェアシステムは、効率性、メンテナンス、スタッフリング、セキュリティにおいて課題を提起する。
本稿では,2つのデータセットを用いたレガシコードのための文書生成におけるLCMの利用について検討する。
本稿では,ラインワイドなコードコメントを生成するためのプロンプト戦略を提案し,その完全性,可読性,有用性,幻覚性を評価する。
- 参考スコア(独自算出の注目度): 2.249533649156367
- License:
- Abstract: Legacy software systems, written in outdated languages like MUMPS and mainframe assembly, pose challenges in efficiency, maintenance, staffing, and security. While LLMs offer promise for modernizing these systems, their ability to understand legacy languages is largely unknown. This paper investigates the utilization of LLMs to generate documentation for legacy code using two datasets: an electronic health records (EHR) system in MUMPS and open-source applications in IBM mainframe Assembly Language Code (ALC). We propose a prompting strategy for generating line-wise code comments and a rubric to evaluate their completeness, readability, usefulness, and hallucination. Our study assesses the correlation between human evaluations and automated metrics, such as code complexity and reference-based metrics. We find that LLM-generated comments for MUMPS and ALC are generally hallucination-free, complete, readable, and useful compared to ground-truth comments, though ALC poses challenges. However, no automated metrics strongly correlate with comment quality to predict or measure LLM performance. Our findings highlight the limitations of current automated measures and the need for better evaluation metrics for LLM-generated documentation in legacy systems.
- Abstract(参考訳): MUMPSやメインフレームアセンブリといった時代遅れの言語で記述されたレガシーソフトウェアシステムは、効率性、メンテナンス、スタッフリング、セキュリティにおいて課題を提起する。
LLMはこれらのシステムの近代化を約束するが、レガシー言語を理解する能力はほとんど不明である。
本稿では,MUMPSにおける電子健康記録(EHR)システムと,IBMメインフレームアセンブリ言語コード(ALC)におけるオープンソースアプリケーションという,2つのデータセットを用いたレガシコードのドキュメンテーション作成のためのLCMの利用について検討する。
本稿では,ラインワイドなコードコメントを生成するためのプロンプト戦略を提案し,その完全性,可読性,有用性,幻覚性を評価する。
本研究では,人間の評価と,コードの複雑さや基準に基づくメトリクスといった自動メトリクスの相関性を評価する。
MUMPS と ALC に対する LLM 生成コメントは, 一般に幻覚のない, 完全で, 読みやすい, 有用である。
しかし、LPMのパフォーマンスを予測または測定するためにコメント品質と強く相関する自動メトリクスは存在しない。
本研究は,レガシシステムにおけるLCM生成ドキュメンテーションの評価基準の改善の必要性と,現在の自動測定の限界を明らかにするものである。
関連論文リスト
- Automatic Generation of Benchmarks and Reliable LLM Judgment for Code Tasks [0.8274693573069442]
この研究は、自動生成されたベンチマークを利用して、LaaJの実装を生成および評価する方法論を導入する。
ベンチマークは、LaaJの開発と検証と、LaaJを使用してLLMコード関連ソリューションの検証とテストの両方に使用される。
私たちのアプローチは、高品質なコードタスクソリューションの作成を可能にします。
論文 参考訳(メタデータ) (2024-10-28T14:34:36Z) - DOCBENCH: A Benchmark for Evaluating LLM-based Document Reading Systems [99.17123445211115]
本稿では,大規模言語モデル(LLM)に基づく文書読解システムを評価するベンチマークであるDocBenchを紹介する。
我々のベンチマークには、人間のアノテーションの募集と、合成質問の生成が含まれる。
実際の文書は229件、質問は1,102件で、5つのドメインにまたがって4種類の質問がある。
論文 参考訳(メタデータ) (2024-07-15T13:17:42Z) - Source Code Summarization in the Era of Large Language Models [23.715005053430957]
大規模言語モデル(LLM)は、コード関連のタスクのパフォーマンスを大幅に向上させた。
本稿では,LLMにおけるコード要約の体系的および包括的研究を行う。
論文 参考訳(メタデータ) (2024-07-09T05:48:42Z) - RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale [3.378738346115004]
大規模言語モデル (LLM) を評価するベンチマーク RES-Q を開発した。
我々は,Qurrent OS上に構築されたリポジトリ編集システムにおける言語エージェントとして,最先端のLLMを評価した。
論文 参考訳(メタデータ) (2024-06-24T17:08:17Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - The potential of LLMs for coding with low-resource and domain-specific
programming languages [0.0]
本研究は,オープンソースソフトウェアGreetlのハンスル(Hansl)という,econometricスクリプティング言語に焦点を当てたものである。
この結果から, LLMはグレタブルコードの記述, 理解, 改善, 文書化に有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2023-07-24T17:17:13Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。