Fugu-MT 論文翻訳(概要): X-COBOL: A Dataset of COBOL Repositories

論文の概要: X-COBOL: A Dataset of COBOL Repositories

arxiv url: http://arxiv.org/abs/2306.04892v1
Date: Thu, 8 Jun 2023 02:42:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 04:16:05.538502
Title: X-COBOL: A Dataset of COBOL Repositories
Title（参考訳）: X-COBOL:COBOLリポジトリのデータセット
Authors: Mir Sameed Ali, Nikhil Manjunath, Sridhar Chimalakonda
Abstract要約: 私たちはGitHubから発掘された84のリポジトリのデータセットを構築しました。私たちのデータセットは、マイニングされたリポジトリ内に存在する1255のファイルも提供しています。
参考スコア（独自算出の注目度）: 4.8342038441006805
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite being proposed as early as 1959, COBOL (Common Business-Oriented Language) still predominantly acts as an integral part of the majority of operations of several financial, banking, and governmental organizations. To support the inevitable modernization and maintenance of legacy systems written in COBOL, it is essential for organizations, researchers, and developers to understand the nature and source code of COBOL programs. However, to the best of our knowledge, we are unaware of any dataset that provides data on COBOL software projects, motivating the need for the dataset. Thus, to aid empirical research on comprehending COBOL in open-source repositories, we constructed a dataset of 84 COBOL repositories mined from GitHub, containing rich metadata on the development cycle of the projects. We envision that researchers can utilize our dataset to study COBOL projects' evolution, code properties and develop tools to support their development. Our dataset also provides 1255 COBOL files present inside the mined repositories. The dataset and artifacts are available at https://doi.org/10.5281/zenodo.7968845.
Abstract（参考訳）: 既に1959年に提案されたにもかかわらず、cobol(common business-oriented language)は、金融、銀行、政府などの組織の運営のほとんどを担っている。 COBOLで書かれたレガシーシステムの必然的な近代化とメンテナンスをサポートするためには、組織、研究者、開発者がCOBOLプログラムの性質とソースコードを理解することが不可欠である。しかしながら、私たちの知る限りでは、COBOLソフトウェアプロジェクトに関するデータを提供し、データセットの必要性を動機付けているデータセットを知らないのです。そこで、オープンソースリポジトリにおけるCOBOLの理解に関する実証的研究を支援するために、GitHubから発掘された84のCOBOLリポジトリのデータセットを構築しました。研究者は、私たちのデータセットを使ってCOBOLプロジェクトの進化、コードプロパティ、開発を支援するツールを研究できると考えています。私たちのデータセットは、マイニングされたリポジトリ内に存在する1255のCOBOLファイルも提供しています。データセットとアーティファクトはhttps://doi.org/10.5281/zenodo.7968845で入手できる。

関連論文リスト

Enhancing COBOL Code Explanations: A Multi-Agents Approach Using Large Language Models [1.835291631794229]
本稿では,機能,ファイル,プロジェクト全体の説明を生成するマルチエージェント手法を提案する。提案手法の有効性を,14のオープンソースプロジェクトを用いて評価した。
論文参考訳（メタデータ） (2025-07-02T22:28:35Z)
Code Reborn AI-Driven Legacy Systems Modernization from COBOL to Java [0.4779196219827508]
Legacy 2024 Corpusの活用 -- パブリックおよびエンタープライズソースから5万ファイル -- Javaはコードを解析し、AIはアップグレードを提案し、Reactは向上を視覚化する。このアプローチは、銀行や保険といった業界にとって不可欠な、システムを回復するためのスケーラブルなパスを提供する。
論文参考訳（メタデータ） (2025-04-15T16:07:54Z)
Automated Validation of COBOL to Java Transformation [5.162381960073761]
我々は,Javaの等価性と翻訳の妥当性を検証するためのフレームワークとツールを提案する。問題が発生した場合のコード修正や,改善のためのAIモデルへのフィードバックの提供にも役立ちます。
論文参考訳（メタデータ） (2025-04-14T06:13:32Z)
RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。 RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文参考訳（メタデータ） (2024-10-03T05:45:26Z)
CodeShell Technical Report [23.741490720927068]
8Kコンテキスト長の基盤モデルであるCodeShell-Baseを提案する。 GitHubから1000億の高品質の事前トレーニングデータをキュレートしました。高品質のデータから得られるCodeShell-Baseは、わずか500億のトークン(5エポック)でトレーニングした後、HumanevalのCodeLlamaを上回った
論文参考訳（メタデータ） (2024-03-23T07:29:41Z)
Boidae: Your Personal Mining Platform [0.21485350418225244]
ユーザによって制御され、カスタマイズされたBoaインスタレーションのファミリーであるBoidaeを紹介します。特に、Boidaeは任意のGitリポジトリから生成されたカスタムデータセットを作成することができる。 Boidaeのスクリプトとそれが構築するインフラストラクチャはすべてオープンソースである。
論文参考訳（メタデータ） (2024-01-20T02:44:47Z)
CodeLL: A Lifelong Learning Dataset to Support the Co-Evolution of Data and Language Models of Code [6.491009626125319]
コード変更に焦点を当てた生涯学習データセットであるCodeLLを紹介します。私たちのデータセットは、オープンソースソフトウェアリポジトリのリリース履歴全体にわたるコード変更を包括的にキャプチャすることを目的としています。 CodeLLは、コード変更を学ぶための生涯にわたる微調整設定において、LMの振る舞いを研究することができる。
論文参考訳（メタデータ） (2023-12-20T01:20:24Z)
Neuro-symbolic Zero-Shot Code Cloning with Cross-Language Intermediate Representation [13.881954273779403]
我々は,従来のプログラミング言語のコードに対して意味論的に類似したクローンを学習することなく発見するタスクに対処する,ニューロシンボリックなアプローチを定義した。 CodeNetデータセットで利用可能なC言語ペアのSBT IRによるコードクローンタスクに対して、クロスプログラミング言語検索の最高のパフォーマンスモデルであるUnixCoderを微調整する。この微調整されたUnixCoderでは、CodeNetから合成されたテストスプリットに基づいて、事前訓練されたUnixCoderモデルに対して12.85 MAP@2のパフォーマンスが改善される。
論文参考訳（メタデータ） (2023-04-26T07:41:26Z)
RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2023-03-22T13:54:46Z)
DocCoder: Generating Code by Retrieving and Reading Docs [87.88474546826913]
コードマニュアルとドキュメントを明示的に活用するアプローチであるDocCoderを紹介します。我々のアプローチは一般的に、どんなプログラミング言語にも適用でき、基礎となるニューラルモデルとは無関係です。
論文参考訳（メタデータ） (2022-07-13T06:47:51Z)
XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence [9.673614921946932]
本稿では,言語間コードインテリジェンスのための新しいベンチマークデータセットであるXLCoST, Cross-Lingual Code SnippeTデータセットを紹介する。データセットには8言語からの詳細な並列データが含まれており、10の言語間コードタスクをサポートしている。
論文参考訳（メタデータ） (2022-06-16T22:49:39Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)
CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation [72.90209988513995]
CodeXGLUEは、プログラムの理解と生成のための機械学習研究を促進するためのベンチマークデータセットである。 CodeXGLUEには、14データセットにわたる10タスクのコレクションと、モデル評価と比較のためのプラットフォームが含まれている。
論文参考訳（メタデータ） (2021-02-09T06:16:25Z)
Incorporating External Knowledge through Pre-training for Natural Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文参考訳（メタデータ） (2020-04-20T01:45:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。