論文の概要: BigO(Bench) -- Can LLMs Generate Code with Controlled Time and Space Complexity?
- arxiv url: http://arxiv.org/abs/2503.15242v1
- Date: Wed, 19 Mar 2025 14:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:25.757868
- Title: BigO(Bench) -- Can LLMs Generate Code with Controlled Time and Space Complexity?
- Title(参考訳): BigO(Bench) -- LLMは時間と空間の複雑さを制御したコードを生成することができるか?
- Authors: Pierre Chambon, Baptiste Roziere, Benoit Sagot, Gabriel Synnaeve,
- Abstract要約: BigO(Bench)は、特定の時間と空間の複雑さでコードを理解し、生成する言語モデルの能力を評価するために設計された、新しいコーディングベンチマークである。
BigO(Bench)には、プロファイリング測定から任意のPython関数のアルゴリズム上の複雑さを推測するツールが含まれている。
このベンチマークで、複数の最先端言語モデルを評価し、複雑さの要求に対処する際の長所と短所を強調した。
- 参考スコア(独自算出の注目度): 20.550427148810556
- License:
- Abstract: We introduce BigO(Bench), a novel coding benchmark designed to evaluate the capabilities of generative language models in understanding and generating code with specified time and space complexities. This benchmark addresses the gap in current evaluations that often overlook the ability of models to comprehend and produce code constrained by computational complexity. BigO(Bench) includes tooling to infer the algorithmic complexity of any Python function from profiling measurements, including human- or LLM-generated solutions. BigO(Bench) also includes of set of 3,105 coding problems and 1,190,250 solutions from Code Contests annotated with inferred (synthetic) time and space complexity labels from the complexity framework, as well as corresponding runtime and memory footprint values for a large set of input sizes. We present results from evaluating multiple state-of-the-art language models on this benchmark, highlighting their strengths and weaknesses in handling complexity requirements. In particular, token-space reasoning models are unrivaled in code generation but not in complexity understanding, hinting that they may not generalize well to tasks for which no reward was given at training time.
- Abstract(参考訳): 我々は、時間と空間の複雑さを指定したコードを理解し、生成する言語モデルの能力を評価するために設計された、新しいコーディングベンチマークであるBigO(Bench)を紹介する。
このベンチマークは、しばしば計算複雑性に制約されたコードを理解し、生成するモデルの能力を見落としている現在の評価のギャップに対処する。
BigO(Bench)には、人間やLLM生成ソリューションを含むプロファイリング測定から、任意のPython関数のアルゴリズム上の複雑さを推測するツールが含まれている。
BigO(Bench)には3,105のコーディング問題と1,190,250のソリューションが含まれている。
このベンチマークで、複数の最先端言語モデルを評価し、複雑さの要求に対処する際の長所と短所を強調した。
特に、トークン空間推論モデルは、コード生成では未熟だが、複雑さの理解では不十分であり、トレーニング時に報酬が与えられないタスクにうまく一般化できない可能性があることを示唆している。
関連論文リスト
- EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
抽象構文木(AST)にヒントを得た新しい特徴木ベース合成フレームワークを提案する。
コードの構文構造をキャプチャするASTとは異なり、私たちのフレームワークはコード要素間のセマンティックな関係をモデル化します。
広く使われているベースモデルを微調整してEpiCoderシリーズを作成し、関数レベルとファイルレベルの両方で最先端のパフォーマンスを実現しました。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - MapCoder: Multi-Agent Code Generation for Competitive Problem Solving [3.3856216159724983]
マルチエージェントプロンプトを利用したコード生成タスクに新たなアプローチを導入する。
私たちのフレームワークであるMapCoderは、プログラム合成の段階をエミュレートするために設計された4つのLLMエージェントで構成されています。
我々の手法は、様々なプログラミング言語で一貫して優れた性能を提供する。
論文 参考訳(メタデータ) (2024-05-18T22:10:15Z) - CoCoST: Automatic Complex Code Generation with Online Searching and Correctness Testing [51.00909683314142]
大規模言語モデルは、自然言語記述を実行可能なコードに変換することによって、コード生成能力に革命をもたらした。
CoCoSTフレームワークは、オンライン検索によって複雑なコード生成を強化する。
CoCoSTはDS-1000とClassEvalデータセットの厳密な実験によって検証される。
論文 参考訳(メタデータ) (2024-03-20T13:33:55Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - CodeComplex: Dataset for Worst-Case Time Complexity Prediction [7.974618854858136]
コード時間の複雑さ予測には、変数の入力範囲や条件ループなど、様々な複雑な要素が含まれる。
現在のベンチマークは、限られたデータ、言語制約、不十分なラベリングのために厳格な評価を提供していない。
コード時間の複雑さを予測する上で,LSMの推論能力を評価するために設計された最初の堅牢で広範なデータセットであるCodeComplexを紹介した。
論文 参考訳(メタデータ) (2024-01-16T06:54:44Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - TASTY: A Transformer based Approach to Space and Time complexity [0.4724825031148411]
コードベース言語モデル(LM)は、ソフトウェア工学の分野で非常に有望な結果を示している。
複数の言語にまたがるコードスニペットのラベル付きデータセットを作成します。
私たちは、コードから空間の複雑さを見つけるのにLMを使うことを提案しています。
論文 参考訳(メタデータ) (2023-05-06T03:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。