論文の概要: CodeComplex: A Time-Complexity Dataset for Bilingual Source Codes
- arxiv url: http://arxiv.org/abs/2401.08719v1
- Date: Tue, 16 Jan 2024 06:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 18:12:35.757779
- Title: CodeComplex: A Time-Complexity Dataset for Bilingual Source Codes
- Title(参考訳): CodeComplex: バイリンガルソースコードのための時間複雑データセット
- Authors: Seung-Yeop Baik, Mingi Jeon, Joonghyuk Hahn, Jungin Kim, Yo-Sub Han,
Sang-Ki Ko
- Abstract要約: CodeComplexは、新しいソースコードデータセットで、各コードが手動でアノテートされ、最悪の場合の複雑さに対応する。
私たちの知る限りでは、CodeComplexは複雑さを予測するのに適した、最も広範なコードデータセットである。
コード理解における最先端のニューラルモデルを利用して,様々なベースラインモデルを用いた実験の結果を示す。
- 参考スコア(独自算出の注目度): 6.169110187130671
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Analyzing the worst-case time complexity of a code is a crucial task in
computer science and software engineering for ensuring the efficiency,
reliability, and robustness of software systems. However, it is well-known that
the problem of determining the worst-case time complexity of a given code
written in general-purpose programming language is theoretically undecidable by
the famous Halting problem proven by Alan Turing. Thus, we move towards more
realistic scenarios where the inputs and outputs of a program exist. This
allows us to discern the correctness of given codes, challenging to analyze
their time complexity exhaustively. In response to this challenge, we introduce
CodeComplex, a novel source code dataset where each code is manually annotated
with a corresponding worst-case time complexity. CodeComplex comprises 4,900
Java codes and an equivalent number of Python codes, all sourced from
programming competitions and annotated with complexity labels by a panel of
algorithmic experts. To the best of our knowledge, CodeComplex stands as the
most extensive code dataset tailored for predicting complexity. Subsequently,
we present the outcomes of our experiments employing various baseline models,
leveraging state-of-the-art neural models in code comprehension like CodeBERT,
GraphCodeBERT, UniXcoder, PLBART, CodeT5, CodeT5+, and ChatGPT. We analyze how
the dataset impacts the model's learning in predicting time complexity.
- Abstract(参考訳): コードの最悪の場合の複雑さを分析することは、ソフトウェアシステムの効率、信頼性、堅牢性を確保するために、コンピュータサイエンスとソフトウェアエンジニアリングにおいて重要なタスクである。
しかし、汎用プログラミング言語で書かれた与えられたコードの最悪の時間複雑性を決定する問題は、アラン・チューリングが証明した有名なハルティング問題によって理論的には決定できないことが知られている。
したがって、プログラムのインプットとアウトプットが存在するより現実的なシナリオに移行します。
これにより、与えられたコードの正確性が分かりやすくなり、時間の複雑さを徹底的に分析することが難しくなります。
この課題に対応するために、私たちは、各コードが手動でアノテートされる新しいソースコードデータセットであるCodeComplexを紹介します。
CodeComplexは4,900のJavaコードと同等数のPythonコードで構成されている。
私たちの知る限りでは、CodeComplexは複雑さを予測するための最も広範なコードデータセットである。
その後、CodeBERT、GraphCodeBERT、UniXcoder、PLBART、CodeT5、CodeT5+、ChatGPTといったコード理解における最先端のニューラルモデルを利用して、さまざまなベースラインモデルを用いた実験結果を示す。
我々は、データセットがモデルの学習にどのように影響するかを分析し、時間の複雑さを予測する。
関連論文リスト
- Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。
コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。
実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (2024-09-20T14:49:51Z) - MapCoder: Multi-Agent Code Generation for Competitive Problem Solving [3.3856216159724983]
マルチエージェントプロンプトを利用したコード生成タスクに新たなアプローチを導入する。
私たちのフレームワークであるMapCoderは、プログラム合成の段階をエミュレートするために設計された4つのLLMエージェントで構成されています。
我々の手法は、様々なプログラミング言語で一貫して優れた性能を提供する。
論文 参考訳(メタデータ) (2024-05-18T22:10:15Z) - CoCoST: Automatic Complex Code Generation with Online Searching and Correctness Testing [51.00909683314142]
大規模言語モデルは、自然言語記述を実行可能なコードに変換することによって、コード生成能力に革命をもたらした。
CoCoSTフレームワークは、オンライン検索によって複雑なコード生成を強化する。
CoCoSTはDS-1000とClassEvalデータセットの厳密な実験によって検証される。
論文 参考訳(メタデータ) (2024-03-20T13:33:55Z) - Automatizing Software Cognitive Complexity Reduction through Integer
Linear Programming [1.1970409518725493]
近年,ソフトウェア認知複雑性の低減を最適化問題としてモデル化し,開発者を支援する手法を提案する。
このアプローチは、停止基準を満たすまでコード抽出操作のシーケンスを列挙する。結果として、コードの認知複雑性を所定のしきい値に減らすことができる最小限のコード抽出操作のシーケンスを返す。
論文 参考訳(メタデータ) (2024-02-08T10:53:00Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - TASTY: A Transformer based Approach to Space and Time complexity [0.4724825031148411]
コードベース言語モデル(LM)は、ソフトウェア工学の分野で非常に有望な結果を示している。
複数の言語にまたがるコードスニペットのラベル付きデータセットを作成します。
私たちは、コードから空間の複雑さを見つけるのにLMを使うことを提案しています。
論文 参考訳(メタデータ) (2023-05-06T03:37:44Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Competition-Level Code Generation with AlphaCode [74.87216298566942]
より深い推論を必要とする問題に対する新しいソリューションを作成することができるコード生成システムであるAlphaCodeを紹介する。
Codeforcesプラットフォームにおける最近のプログラミングコンペティションのシミュレーション評価において、AlphaCodeは平均54.3%のランキングを達成した。
論文 参考訳(メタデータ) (2022-02-08T23:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。