論文の概要: COFO: COdeFOrces dataset for Program Classification, Recognition and Tagging
- arxiv url: http://arxiv.org/abs/2503.18251v1
- Date: Mon, 24 Mar 2025 00:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:37:59.985933
- Title: COFO: COdeFOrces dataset for Program Classification, Recognition and Tagging
- Title(参考訳): COFO:プログラム分類、認識、タグ付けのためのCOdeFOrcesデータセット
- Authors: Kuldeep Gautam, S. VenkataKeerthy, Ramakrishna Upadrasta,
- Abstract要約: COFOは809のクラス/アウトプットからなるデータセットで、C、C++、Java、Pythonで書かれた合計369Kのソースコードを持つ。
このデータセットは、プログラム分類/プロブレム、タグ付け、プログラム特性の予測、コード理解といった機械学習ベースの問題を解決するのに有用であると考えています。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In recent years, a lot of technological advances in computer science have aided software programmers to create innovative and real-time user-friendly software. With the creation of the software and the urging interest of people to learn to write software, there is a large collection of source codes that can be found on the web, also known as Big Code, which can be used as a source of data for driving the machine learning applications tending to solve certain software engineering problems. In this paper, we present COFO, a dataset consisting of 809 classes/problems with a total of 369K source codes written in C, C++, Java, and Python programming languages, along with other metadata such as code tags, problem specification, and input-output specifications. COFO has been scraped from the openly available Codeforces website using a selenium-beautifulsoup-python based scraper. We envision that this dataset can be useful for solving machine learning-based problems like program classification/recognition, tagging, predicting program properties, and code comprehension.
- Abstract(参考訳): 近年、コンピュータサイエンスにおける多くの技術進歩は、ソフトウェアプログラマが革新的でリアルタイムなユーザーフレンドリーなソフトウェアを作るのに役立っている。
ソフトウェアの開発と、人々がソフトウェアを書くことを学ぶことへの関心が高まっているため、Webで見つけることのできる大量のソースコード(Big Codeとも呼ばれる)があり、特定のソフトウェアエンジニアリング問題を解決する傾向にある機械学習アプリケーションを駆動するためのデータソースとして使用できる。
本稿では,C,C++,Java,Pythonで書かれた369Kのソースコードと,コードタグ,問題仕様,インプットアウトプット仕様などのメタデータからなる809のクラス/プロブレムからなるデータセットであるCOFOを提案する。
COFOは、Selenium-beautifulsoup-pythonベースのスクレーサを使用して、公開されているCodeforcesウェブサイトから取り除かれた。
このデータセットは、プログラム分類/認識、タグ付け、プログラム特性の予測、コード理解といった、機械学習ベースの問題を解決するのに有用であると考えています。
関連論文リスト
- Deep Learning for Code Intelligence: Survey, Benchmark and Toolkit [63.82016263181941]
コードインテリジェンスは、機械学習技術を活用して、広範なコードコーパスから知識を抽出する。
現在、コードインテリジェンスに重点を置く研究コミュニティは活発です。
論文 参考訳(メタデータ) (2023-12-30T17:48:37Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - Using Machine Learning To Identify Software Weaknesses From Software
Requirement Specifications [49.1574468325115]
本研究は、要求仕様からソフトウェア弱点を特定するための効率的な機械学習アルゴリズムを見つけることに焦点を当てる。
ProMISE_exp. Naive Bayes、サポートベクターマシン(SVM)、決定木、ニューラルネットワーク、畳み込みニューラルネットワーク(CNN)アルゴリズムをテストした。
論文 参考訳(メタデータ) (2023-08-10T13:19:10Z) - Tag Prediction of Competitive Programming Problems using Deep Learning
Techniques [0.0]
プログラミング能力を開発するためのよく似た方法は、競争力のあるプログラミングである。
初心者にとってもベテランプログラマにとっても,幅広い質問を交わすことは難しいかも知れません。
これは、テキスト分類を使用して質問のタグ付けを自動的に行うことができる。
論文 参考訳(メタデータ) (2023-08-03T16:39:02Z) - Code Smells for Machine Learning Applications [6.759291241573661]
機械学習アプリケーションにはコード品質に関するガイドラインが欠けている。
本稿では,さまざまなソースから収集された22種類の機械学習固有のコードの臭いを抽出し,識別する。
それぞれの匂いを、その状況、長期にわたる潜在的な問題、そして提案された解決策の説明で特定する。
論文 参考訳(メタデータ) (2022-03-25T16:23:02Z) - Project CodeNet: A Large-Scale AI for Code Dataset for Learning a
Diversity of Coding Tasks [11.10732802304274]
Project CodeNetは、1400万のコードサンプルと55の異なるプログラミング言語で約5億行のコードで構成されている。
Project CodeNetは、その規模だけでなく、ベンチマークに役立つコーディングタスクの多様性にも特有である。
論文 参考訳(メタデータ) (2021-05-25T00:13:29Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding
and Generation [72.90209988513995]
CodeXGLUEは、プログラムの理解と生成のための機械学習研究を促進するためのベンチマークデータセットである。
CodeXGLUEには、14データセットにわたる10タスクのコレクションと、モデル評価と比較のためのプラットフォームが含まれている。
論文 参考訳(メタデータ) (2021-02-09T06:16:25Z) - Machine Learning for Software Engineering: A Systematic Mapping [73.30245214374027]
ソフトウェア開発業界は、現代のソフトウェアシステムを高度にインテリジェントで自己学習システムに移行するために、機械学習を急速に採用している。
ソフトウェアエンジニアリングライフサイクルの段階にわたって機械学習の採用について、現状を探求する包括的な研究は存在しない。
本研究は,機械学習によるソフトウェア工学(MLSE)分類を,ソフトウェア工学ライフサイクルのさまざまな段階に適用性に応じて,最先端の機械学習技術に分類するものである。
論文 参考訳(メタデータ) (2020-05-27T11:56:56Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z) - Machine Learning in Python: Main developments and technology trends in
data science, machine learning, and artificial intelligence [3.1314898234563295]
Pythonは科学計算、データサイエンス、機械学習において最も好まれる言語である。
この調査は、Pythonによる機械学習の分野に関する洞察を提供し、重要なトピックをツアーして、それを可能にしたコアハードウェアとソフトウェアパラダイムのいくつかを特定します。
論文 参考訳(メタデータ) (2020-02-12T05:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。