論文の概要: CodeComplex: A Time-Complexity Dataset for Bilingual Source Codes
- arxiv url: http://arxiv.org/abs/2401.08719v1
- Date: Tue, 16 Jan 2024 06:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 18:12:35.757779
- Title: CodeComplex: A Time-Complexity Dataset for Bilingual Source Codes
- Title(参考訳): CodeComplex: バイリンガルソースコードのための時間複雑データセット
- Authors: Seung-Yeop Baik, Mingi Jeon, Joonghyuk Hahn, Jungin Kim, Yo-Sub Han,
Sang-Ki Ko
- Abstract要約: CodeComplexは、新しいソースコードデータセットで、各コードが手動でアノテートされ、最悪の場合の複雑さに対応する。
私たちの知る限りでは、CodeComplexは複雑さを予測するのに適した、最も広範なコードデータセットである。
コード理解における最先端のニューラルモデルを利用して,様々なベースラインモデルを用いた実験の結果を示す。
- 参考スコア(独自算出の注目度): 6.169110187130671
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Analyzing the worst-case time complexity of a code is a crucial task in
computer science and software engineering for ensuring the efficiency,
reliability, and robustness of software systems. However, it is well-known that
the problem of determining the worst-case time complexity of a given code
written in general-purpose programming language is theoretically undecidable by
the famous Halting problem proven by Alan Turing. Thus, we move towards more
realistic scenarios where the inputs and outputs of a program exist. This
allows us to discern the correctness of given codes, challenging to analyze
their time complexity exhaustively. In response to this challenge, we introduce
CodeComplex, a novel source code dataset where each code is manually annotated
with a corresponding worst-case time complexity. CodeComplex comprises 4,900
Java codes and an equivalent number of Python codes, all sourced from
programming competitions and annotated with complexity labels by a panel of
algorithmic experts. To the best of our knowledge, CodeComplex stands as the
most extensive code dataset tailored for predicting complexity. Subsequently,
we present the outcomes of our experiments employing various baseline models,
leveraging state-of-the-art neural models in code comprehension like CodeBERT,
GraphCodeBERT, UniXcoder, PLBART, CodeT5, CodeT5+, and ChatGPT. We analyze how
the dataset impacts the model's learning in predicting time complexity.
- Abstract(参考訳): コードの最悪の場合の複雑さを分析することは、ソフトウェアシステムの効率、信頼性、堅牢性を確保するために、コンピュータサイエンスとソフトウェアエンジニアリングにおいて重要なタスクである。
しかし、汎用プログラミング言語で書かれた与えられたコードの最悪の時間複雑性を決定する問題は、アラン・チューリングが証明した有名なハルティング問題によって理論的には決定できないことが知られている。
したがって、プログラムのインプットとアウトプットが存在するより現実的なシナリオに移行します。
これにより、与えられたコードの正確性が分かりやすくなり、時間の複雑さを徹底的に分析することが難しくなります。
この課題に対応するために、私たちは、各コードが手動でアノテートされる新しいソースコードデータセットであるCodeComplexを紹介します。
CodeComplexは4,900のJavaコードと同等数のPythonコードで構成されている。
私たちの知る限りでは、CodeComplexは複雑さを予測するための最も広範なコードデータセットである。
その後、CodeBERT、GraphCodeBERT、UniXcoder、PLBART、CodeT5、CodeT5+、ChatGPTといったコード理解における最先端のニューラルモデルを利用して、さまざまなベースラインモデルを用いた実験結果を示す。
我々は、データセットがモデルの学習にどのように影響するかを分析し、時間の複雑さを予測する。
関連論文リスト
- Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。
既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。
複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文 参考訳(メタデータ) (2024-07-04T14:50:45Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - TASTY: A Transformer based Approach to Space and Time complexity [0.4724825031148411]
コードベース言語モデル(LM)は、ソフトウェア工学の分野で非常に有望な結果を示している。
複数の言語にまたがるコードスニペットのラベル付きデータセットを作成します。
私たちは、コードから空間の複雑さを見つけるのにLMを使うことを提案しています。
論文 参考訳(メタデータ) (2023-05-06T03:37:44Z) - Detecting Requirements Smells With Deep Learning: Experiences,
Challenges and Future Work [9.44316959798363]
本研究の目的は,手動でラベル付きデータセットを作成し,アンサンブル学習,深層学習(DL),単語埋め込みや伝達学習といった手法を用いて一般化問題を克服することで,従来の作業を改善することである。
現在の調査結果は、データセットが不均衡であり、どのクラスをもっと追加すべきかを示している。
論文 参考訳(メタデータ) (2021-08-06T12:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。