Fugu-MT 論文翻訳(概要): CodeComplex: Dataset for Worst-Case Time Complexity Prediction

論文の概要: CodeComplex: Dataset for Worst-Case Time Complexity Prediction

arxiv url: http://arxiv.org/abs/2401.08719v2
Date: Tue, 24 Dec 2024 08:24:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 19:23:17.375861
Title: CodeComplex: Dataset for Worst-Case Time Complexity Prediction
Title（参考訳）: CodeComplex: 最悪の時間複雑度予測のためのデータセット
Authors: Seung-Yeop Baik, Joonghyuk Hahn, Jungin Kim, Mingi Jeon, Aditi, Yo-Sub Han, Sang-Ki Ko,
Abstract要約: コード時間の複雑さ予測には、変数の入力範囲や条件ループなど、様々な複雑な要素が含まれる。現在のベンチマークは、限られたデータ、言語制約、不十分なラベリングのために厳格な評価を提供していない。コード時間の複雑さを予測する上で,LSMの推論能力を評価するために設計された最初の堅牢で広範なデータセットであるCodeComplexを紹介した。
参考スコア（独自算出の注目度）: 7.974618854858136
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Reasoning ability of Large Language Models (LLMs) is a crucial ability, especially in complex decision-making tasks. One significant task to show LLMs' reasoning capability is code time complexity prediction, which involves various intricate factors such as the input range of variables and conditional loops. Current benchmarks fall short of providing a rigorous assessment due to limited data, language constraints, and insufficient labeling. They do not consider time complexity based on input representation and merely evaluate whether predictions fall into the same class, lacking a measure of how close incorrect predictions are to the correct ones. To address these dependencies, we introduce CodeComplex, the first robust and extensive dataset designed to evaluate LLMs' reasoning abilities in predicting code time complexity. CodeComplex comprises 4,900 Java codes and an equivalent number of Python codes, overcoming language and labeling constraints, carefully annotated with complexity labels based on input characteristics by a panel of algorithmic experts. Additionally, we propose specialized evaluation metrics for the reasoning of complexity prediction tasks, offering a more precise and reliable assessment of LLMs' reasoning capabilities. We release our dataset (https://github.com/sybaik1/CodeComplex-Data) and baseline models (https://github.com/sybaik1/CodeComplex-Models) publicly to encourage the relevant (NLP, SE, and PL) communities to utilize and participate in this research.
Abstract（参考訳）: 大規模言語モデル(LLM)の推論能力は、特に複雑な意思決定タスクにおいて重要な能力である。 LLMの推論能力を示す重要なタスクの1つは、変数の入力範囲や条件ループなど、様々な複雑な要素を含むコード時間複雑性予測である。現在のベンチマークは、限られたデータ、言語制約、不十分なラベリングのために厳格な評価を提供していない。彼らは入力表現に基づく時間複雑性を考慮せず、予測が同じクラスに該当するかどうかを単に評価するだけで、正しい予測にどの程度近いかを測る手段を欠いている。これらの依存関係に対処するために、コード時間の複雑さを予測するLLMの推論能力を評価するために設計された、最初の堅牢で広範なデータセットであるCodeComplexを紹介します。 CodeComplexは4,900のJavaコードと同等数のPythonコードで構成されており、言語やラベルの制約を克服し、アルゴリズムの専門家のパネルによる入力特性に基づいた複雑なラベルを慎重に注釈付けしている。さらに,複雑性予測タスクの推論のための専門的評価指標を提案し,LLMの推論能力をより正確かつ信頼性の高い評価を行う。我々はデータセット(https://github.com/sybaik1/CodeComplex-Data)とベースラインモデル(https://github.com/sybaik1/CodeComplex-Models)を公開して、関連する(NLP、SE、PL)コミュニティの利用と参加を奨励します。

関連論文リスト

Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
BigO(Bench) -- Can LLMs Generate Code with Controlled Time and Space Complexity? [20.550427148810556]
BigO(Bench)は、特定の時間と空間の複雑さでコードを理解し、生成する言語モデルの能力を評価するために設計された、新しいコーディングベンチマークである。 BigO(Bench)には、プロファイリング測定から任意のPython関数のアルゴリズム上の複雑さを推測するツールが含まれている。このベンチマークで、複数の最先端言語モデルを評価し、複雑さの要求に対処する際の長所と短所を強調した。
論文参考訳（メタデータ） (2025-03-19T14:19:57Z)
TCProF: Time-Complexity Prediction SSL Framework [3.803993344850168]
時間複雑性は、アルゴリズムの実行に必要な時間を決定するための理論測度である。 TCProF: Time-Complexity Prediction SSL Frameworkを紹介します。 TCProFは、拡張、シンボリックモジュール、コトレーニング機構を統合することで、パフォーマンスを大幅に向上します。
論文参考訳（メタデータ） (2025-02-10T12:39:33Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文参考訳（メタデータ） (2024-09-20T14:49:51Z)
Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文参考訳（メタデータ） (2024-07-04T14:50:45Z)
MapCoder: Multi-Agent Code Generation for Competitive Problem Solving [3.3856216159724983]
マルチエージェントプロンプトを利用したコード生成タスクに新たなアプローチを導入する。私たちのフレームワークであるMapCoderは、プログラム合成の段階をエミュレートするために設計された4つのLLMエージェントで構成されています。我々の手法は、様々なプログラミング言語で一貫して優れた性能を提供する。
論文参考訳（メタデータ） (2024-05-18T22:10:15Z)
CoCoST: Automatic Complex Code Generation with Online Searching and Correctness Testing [51.00909683314142]
大規模言語モデルは、自然言語記述を実行可能なコードに変換することによって、コード生成能力に革命をもたらした。 CoCoSTフレームワークは、オンライン検索によって複雑なコード生成を強化する。 CoCoSTはDS-1000とClassEvalデータセットの厳密な実験によって検証される。
論文参考訳（メタデータ） (2024-03-20T13:33:55Z)
Automatizing Software Cognitive Complexity Reduction through Integer Linear Programming [1.1970409518725493]
近年,ソフトウェア認知複雑性の低減を最適化問題としてモデル化し,開発者を支援する手法を提案する。このアプローチは、停止基準を満たすまでコード抽出操作のシーケンスを列挙する。結果として、コードの認知複雑性を所定のしきい値に減らすことができる最小限のコード抽出操作のシーケンスを返す。
論文参考訳（メタデータ） (2024-02-08T10:53:00Z)
SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文参考訳（メタデータ） (2024-01-26T09:23:27Z)
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文参考訳（メタデータ） (2023-10-24T17:59:20Z)
Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文参考訳（メタデータ） (2023-09-17T04:18:39Z)
When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文参考訳（メタデータ） (2023-08-29T17:22:39Z)
TASTY: A Transformer based Approach to Space and Time complexity [0.4724825031148411]
コードベース言語モデル(LM)は、ソフトウェア工学の分野で非常に有望な結果を示している。複数の言語にまたがるコードスニペットのラベル付きデータセットを作成します。私たちは、コードから空間の複雑さを見つけるのにLMを使うことを提案しています。
論文参考訳（メタデータ） (2023-05-06T03:37:44Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)
Competition-Level Code Generation with AlphaCode [74.87216298566942]
より深い推論を必要とする問題に対する新しいソリューションを作成することができるコード生成システムであるAlphaCodeを紹介する。 Codeforcesプラットフォームにおける最近のプログラミングコンペティションのシミュレーション評価において、AlphaCodeは平均54.3%のランキングを達成した。
論文参考訳（メタデータ） (2022-02-08T23:16:31Z)
Detecting Requirements Smells With Deep Learning: Experiences, Challenges and Future Work [9.44316959798363]
本研究の目的は,手動でラベル付きデータセットを作成し,アンサンブル学習,深層学習(DL),単語埋め込みや伝達学習といった手法を用いて一般化問題を克服することで,従来の作業を改善することである。現在の調査結果は、データセットが不均衡であり、どのクラスをもっと追加すべきかを示している。
論文参考訳（メタデータ） (2021-08-06T12:45:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。