論文の概要: X-COBOL: A Dataset of COBOL Repositories
- arxiv url: http://arxiv.org/abs/2306.04892v1
- Date: Thu, 8 Jun 2023 02:42:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 04:16:05.538502
- Title: X-COBOL: A Dataset of COBOL Repositories
- Title(参考訳): X-COBOL:COBOLリポジトリのデータセット
- Authors: Mir Sameed Ali, Nikhil Manjunath, Sridhar Chimalakonda
- Abstract要約: 私たちはGitHubから発掘された84のリポジトリのデータセットを構築しました。
私たちのデータセットは、マイニングされたリポジトリ内に存在する1255のファイルも提供しています。
- 参考スコア(独自算出の注目度): 4.8342038441006805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite being proposed as early as 1959, COBOL (Common Business-Oriented
Language) still predominantly acts as an integral part of the majority of
operations of several financial, banking, and governmental organizations. To
support the inevitable modernization and maintenance of legacy systems written
in COBOL, it is essential for organizations, researchers, and developers to
understand the nature and source code of COBOL programs. However, to the best
of our knowledge, we are unaware of any dataset that provides data on COBOL
software projects, motivating the need for the dataset. Thus, to aid empirical
research on comprehending COBOL in open-source repositories, we constructed a
dataset of 84 COBOL repositories mined from GitHub, containing rich metadata on
the development cycle of the projects. We envision that researchers can utilize
our dataset to study COBOL projects' evolution, code properties and develop
tools to support their development. Our dataset also provides 1255 COBOL files
present inside the mined repositories. The dataset and artifacts are available
at https://doi.org/10.5281/zenodo.7968845.
- Abstract(参考訳): 既に1959年に提案されたにもかかわらず、cobol(common business-oriented language)は、金融、銀行、政府などの組織の運営のほとんどを担っている。
COBOLで書かれたレガシーシステムの必然的な近代化とメンテナンスをサポートするためには、組織、研究者、開発者がCOBOLプログラムの性質とソースコードを理解することが不可欠である。
しかしながら、私たちの知る限りでは、COBOLソフトウェアプロジェクトに関するデータを提供し、データセットの必要性を動機付けているデータセットを知らないのです。
そこで、オープンソースリポジトリにおけるCOBOLの理解に関する実証的研究を支援するために、GitHubから発掘された84のCOBOLリポジトリのデータセットを構築しました。
研究者は、私たちのデータセットを使ってCOBOLプロジェクトの進化、コードプロパティ、開発を支援するツールを研究できると考えています。
私たちのデータセットは、マイニングされたリポジトリ内に存在する1255のCOBOLファイルも提供しています。
データセットとアーティファクトはhttps://doi.org/10.5281/zenodo.7968845で入手できる。
関連論文リスト
- RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。
RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文 参考訳(メタデータ) (2024-10-03T05:45:26Z) - CodeShell Technical Report [23.741490720927068]
8Kコンテキスト長の基盤モデルであるCodeShell-Baseを提案する。
GitHubから1000億の高品質の事前トレーニングデータをキュレートしました。
高品質のデータから得られるCodeShell-Baseは、わずか500億のトークン(5エポック)でトレーニングした後、HumanevalのCodeLlamaを上回った
論文 参考訳(メタデータ) (2024-03-23T07:29:41Z) - Boidae: Your Personal Mining Platform [0.21485350418225244]
ユーザによって制御され、カスタマイズされたBoaインスタレーションのファミリーであるBoidaeを紹介します。
特に、Boidaeは任意のGitリポジトリから生成されたカスタムデータセットを作成することができる。
Boidaeのスクリプトとそれが構築するインフラストラクチャはすべてオープンソースである。
論文 参考訳(メタデータ) (2024-01-20T02:44:47Z) - CodeLL: A Lifelong Learning Dataset to Support the Co-Evolution of Data
and Language Models of Code [6.491009626125319]
コード変更に焦点を当てた生涯学習データセットであるCodeLLを紹介します。
私たちのデータセットは、オープンソースソフトウェアリポジトリのリリース履歴全体にわたるコード変更を包括的にキャプチャすることを目的としています。
CodeLLは、コード変更を学ぶための生涯にわたる微調整設定において、LMの振る舞いを研究することができる。
論文 参考訳(メタデータ) (2023-12-20T01:20:24Z) - Neuro-symbolic Zero-Shot Code Cloning with Cross-Language Intermediate
Representation [13.881954273779403]
我々は,従来のプログラミング言語のコードに対して意味論的に類似したクローンを学習することなく発見するタスクに対処する,ニューロシンボリックなアプローチを定義した。
CodeNetデータセットで利用可能なC言語ペアのSBT IRによるコードクローンタスクに対して、クロスプログラミング言語検索の最高のパフォーマンスモデルであるUnixCoderを微調整する。
この微調整されたUnixCoderでは、CodeNetから合成されたテストスプリットに基づいて、事前訓練されたUnixCoderモデルに対して12.85 MAP@2のパフォーマンスが改善される。
論文 参考訳(メタデータ) (2023-04-26T07:41:26Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - DocCoder: Generating Code by Retrieving and Reading Docs [87.88474546826913]
コードマニュアルとドキュメントを明示的に活用するアプローチであるDocCoderを紹介します。
我々のアプローチは一般的に、どんなプログラミング言語にも適用でき、基礎となるニューラルモデルとは無関係です。
論文 参考訳(メタデータ) (2022-07-13T06:47:51Z) - XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence [9.673614921946932]
本稿では,言語間コードインテリジェンスのための新しいベンチマークデータセットであるXLCoST, Cross-Lingual Code SnippeTデータセットを紹介する。
データセットには8言語からの詳細な並列データが含まれており、10の言語間コードタスクをサポートしている。
論文 参考訳(メタデータ) (2022-06-16T22:49:39Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding
and Generation [72.90209988513995]
CodeXGLUEは、プログラムの理解と生成のための機械学習研究を促進するためのベンチマークデータセットである。
CodeXGLUEには、14データセットにわたる10タスクのコレクションと、モデル評価と比較のためのプラットフォームが含まれている。
論文 参考訳(メタデータ) (2021-02-09T06:16:25Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。